【旭才科技】5 月 23 日消息,AI 编码模型冠军又易主了!
Open AI 最强竞争对手 Anthropic 正式发布了下一代 Claude 模型:Claude Opus 4 和 Claude Sonnet 4。
Anthropic 称:「Claude Opus 4 和 Claude Sonnet 4,为编码、高级推理和 AI Agent 设定新的标准。」
Claude Opus 4 是世界上最好的编码模型,在复杂、长时间运行的任务和 Agent 工作流上具有持续的性能。
Claude Sonnet 4 是对 Claude Sonet 3.7 的重大升级,提供了卓越的编码和推理能力,同时更精确地响应指令。
目前,全球最大代码托管平台 GitHub 已经宣布,将使用 Claude Sonnet 4 作为 GitHub Copilot 新编码 Agent 的基础模型。
Claude 4 的发布,是 Claude 时隔近一年的首次大版本号更新,被 Anthropic 寄予厚望。
就在 5 月初,Google 宣布推出 Gemini 2.5 Pro Preview(I/O 版),号称显著提升了编码能力。就前端 web 开发来说,Gemini 2.5 Pro Preview 在 WebDev Arena 排行榜上超越 Claude 位列第一。
然而,仅仅过去半个月,Anthropic 就带着 Claude 4 大模型强势袭来,重夺编码世界第一的宝座!
Claude 4 双模型重磅发布
Anthropic 将 Claude Opus 4 称之为 「世界上最好的编程模型」,能在复杂、长时间运行的任务和智能体工作流中表现出稳定的性能。
Claude Sonnet 4 是 Claude Sonnet 3.7 的重大升级,以编程和推理能力为核心,同时能更精确地响应用户提示词。
Claude Opus 4 和 Sonnet 4 这两款模型均为混合模型,提供两种模式:即时回复和用于更深入推理的扩展思考 (extended thinking)。
在权威编程基准测试 SWE-bench Verified 上,开启扩展思考的 Claude Opus 4 与 Claude Sonnet 4 的得分分别为 79.4% 和 80.2%,大幅度超越了 OpenAI Codex-1、OpenAI o3、OpenAI GPT-4.1、Gemini 2.5 Pro 等模型。

在编程、工具使用、视觉推理、数学等领域的基准测试中,这两款模型超越了 OpenAI o3,而在多语言问答、研究生级别推理任务上,Claude Opus 4 与 OpenAI o3 得分持平。新模型的智能体能力迎来升级,最高可独立运行 7 小时,并推出了文件 API、提示词缓存等新功能。

Anthropic 还宣布,除了 Claude 4 两款模型本身强大,他们还提供了一些新的功能和改进:
扩展思考与工具使用 (测试版):这两款模型都可以在扩展思考过程中使用工具,如网络搜索,使 Claude 能够在推理和工具使用之间灵活切换,从而优化响应质量。
新的模型能力:两款模型都可以并行使用工具,更精确地遵循指令,并且在开发人员允许访问本地文件时,展现出显著提高的记忆能力,提取和保存关键信息,以保持连续性,并随着时间的推移积累隐性知识。
Claude Code 正式发布:Claude Code 现在通过 GitHub Actions 支持后台任务,并与 VS Code 和 JetBrains 进行原生集成,可直接在文件中显示编辑,实现无缝配对编程。
API 新能力:Anthropic API 发布四项新功能,使开发人员能够构建更强大的 AI 智能体:代码执行工具、MCP 连接器、文件 API,以及长达一小时的提示词缓存能力。
现在,Claude 通过 Anthropic API 上的新代码执行工具运行代码,不仅可编写代码,还能够加载数据集、清理数据、生成探索性图表,并实时分析异常情况。在与 Claude 4 模型结合后,代码执行工具可以处理复杂任务,节省大量时间。
同时,Claude 4 系列模型的自主性进一步提升,Claude 3.7 最多可自主运行 45 分钟,而 Claude 4 可以独立运行数小时,最高达到 7 小时。主要是新模型通过管理待办事项列表保持记忆,不会丢失线索。
目前,Claude Opus 4 和 Sonnet 4 这两款模型都可以在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 上使用。定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 为每百万 token15 美元/75 美元 (输入/输出),Sonnet 4 为每百万 token 3 美元/15 美元。
AI 代码助手 Claude Code 正式开放
Anthropic AI 编程助手 Claude Code 也迎来全面开放,从研究预览转为正式产品。这一编程助手接入了 Claude Opus 4 模型,能实时映射和解释百万行级别的代码库。
Claude Code 与 GitHub、GitLab、VS Code、JetBrains IDE 和命令行工具集成,可直接嵌入至开发终端中。Claude Code 提供按量计费、每月 100 美元和每月 200 美元的 3 种订阅方案。

除了接入最新模型之外,Claude Code 还推出了多项新功能。Claude Code 已经集成进更多开发工作流程中,包括终端,IDE,或者使用 Claude Code SDK 在后台运行。
Anthropic 推出了新的 VS Code 和 JetBrains Beta 扩展。
这一举措直接把 Claude Code 集成到了 IDE 里,也就是说,它已经和开发者们熟悉的代码编辑器无缝结对。
Anthropic 还发布了一个可扩展的 Claude Code SDK,因此开发者可以使用与 Claude Code 相同的核心 AI 智能体来构建自己的 AI 智能体和应用程序。
Anthropic 在 GitHub 上开源了一个示例项目:用户可以直接在 Pull Request 和 Issue 中 @Claude,它将自动响应审阅意见、修复错误并添加新功能。
Claude 4 携 「不间断编码 7 小时」 关键词强势发布,也引发了国内外程序员的关注,有码农就在社交平台发帖自嘲:每一天都是对码农的现实暴击,离失业又近一步了。