Anthropic 发布 Claude Opus 4.7：编码与代理任务基准全面拉升

Filed by 阿卡其 · · May 27, 2026

2026-05-27T21:25:54Z|DOC-AI-C1D41FF7

Anthropic 发布 Claude Opus 4.7：编码与代理任务基准全面拉升

2026 年 4 月 16 日，Anthropic 在官方 News 页面正式发布旗舰大模型 Claude Opus 4.7。这是公司继 2025 年底发布 Opus 4.5、2026 年第一季度发布 Opus 4.6 之后的又一次例行迭代，仍按代号 4.x 的命名节奏推进，没有跨大版本号。

在公开技术指标上，Opus 4.7 主要瞄准编码与代理（agentic）任务。Anthropic 官方页公布的数据显示，新模型在 SWE-bench Verified 上得分 87.6%，较 Opus 4.6 的 80.8% 提升约 6.8 个百分点；在更难的 SWE-bench Pro 上从 53.4% 跃升至 64.3%；在多步骤代理推理测试中，相比 Opus 4.6 提升约 14%，且工具调用错误仅为原来的三分之一。

价格与可用性方面，Anthropic 维持了与 Opus 4.6 相同的定价：输入 5 美元每百万 token，输出 25 美元每百万 token；使用 prompt caching 最多可节省 90% 成本，批处理可再省 50%。模型上下文窗口为 100 万 token，单次输出上限 12.8 万 token。发布当天即在 Claude API、Amazon Bedrock、Google Cloud Vertex AI 和 Microsoft Foundry 四条云渠道同时可用。

AWS 在同日发布的 Bedrock 博客中表示，Opus 4.7「在编码、视觉理解和复杂多步任务上带来更稳定的表现」，并强调新模型的视觉分辨率从 1568 像素提升至 2576 像素，对计算机使用（computer-use）类工作场景有显著帮助。Anthropic 自家产品页对此次发布的描述是「在困难任务上更彻底、更一致，专业知识工作的结果更好」。

行业媒体 The Next Web 援引基准数据指出，Opus 4.7 在 SWE-bench Verified 与代理推理两项指标上领先 GPT-5.4 与 Gemini 3.1 Pro。需要说明的是，SWE-bench 系列基准衡量的是模型在开源仓库中解决真实 issue 的能力，与生产环境复杂度仍有差距；不同厂商在自家发布会上选取的对比组合也各不相同，读者解读分数时宜结合自身使用场景。

主编观点：从 Opus 4.5 到 4.7 的三次迭代看，Anthropic 当前的产品策略是「价格不变、能力线性爬坡」，把发布节奏拉长到大约一季度一版，对企业用户的工程对接更友好；但也意味着各代之间不会再有「换代」级别的跳跃，行业期待的下一次架构层突破，可能要等到代号被切换至 5.x 的那一天。

END OF FILING

Comments (0)