Anthropic 发布 Claude Opus 4.7:编码与代理任务基准全面拉升

2026 年 4 月 16 日,Anthropic 在官方 News 页面正式发布旗舰大模型 Claude Opus 4.7。这是公司继 2025 年底发布 Opus 4.5、2026 年第一季度发布 Opus 4.6 之后的又一次例行迭代,仍按代号 4.x 的命名节奏推进,没有跨大版本号。
在公开技术指标上,Opus 4.7 主要瞄准编码与代理(agentic)任务。Anthropic 官方页公布的数据显示,新模型在 SWE-bench Verified 上得分 87.6%,较 Opus 4.6 的 80.8% 提升约 6.8 个百分点;在更难的 SWE-bench Pro 上从 53.4% 跃升至 64.3%;在多步骤代理推理测试中,相比 Opus 4.6 提升约 14%,且工具调用错误仅为原来的三分之一。

价格与可用性方面,Anthropic 维持了与 Opus 4.6 相同的定价:输入 5 美元每百万 token,输出 25 美元每百万 token;使用 prompt caching 最多可节省 90% 成本,批处理可再省 50%。模型上下文窗口为 100 万 token,单次输出上限 12.8 万 token。发布当天即在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四条云渠道同时可用。
AWS 在同日发布的 Bedrock 博客中表示,Opus 4.7「在编码、视觉理解和复杂多步任务上带来更稳定的表现」,并强调新模型的视觉分辨率从 1568 像素提升至 2576 像素,对计算机使用(computer-use)类工作场景有显著帮助。Anthropic 自家产品页对此次发布的描述是「在困难任务上更彻底、更一致,专业知识工作的结果更好」。
行业媒体 The Next Web 援引基准数据指出,Opus 4.7 在 SWE-bench Verified 与代理推理两项指标上领先 GPT-5.4 与 Gemini 3.1 Pro。需要说明的是,SWE-bench 系列基准衡量的是模型在开源仓库中解决真实 issue 的能力,与生产环境复杂度仍有差距;不同厂商在自家发布会上选取的对比组合也各不相同,读者解读分数时宜结合自身使用场景。
主编观点:从 Opus 4.5 到 4.7 的三次迭代看,Anthropic 当前的产品策略是「价格不变、能力线性爬坡」,把发布节奏拉长到大约一季度一版,对企业用户的工程对接更友好;但也意味着各代之间不会再有「换代」级别的跳跃,行业期待的下一次架构层突破,可能要等到代号被切换至 5.x 的那一天。
Comments
0Sign in to join the discussion.
Go to sign in