前沿科技

Anthropic 发布首个混合推理模型 Claude 3.7 Sonnet:编码能力一流,还可自由控制模型思考时间

【旭才科技】2 月 25 日消息,OpenAI 的美国最大竞争对手 Anthropic 最新发布了一款名为 Claude 3.7 Sonnet 的新模型,以及一款编码工具 Claude Code。

Anthropic 表示,Claude 3.7 Sonnet 是其最智能的 AI 模型,也是首个混合推理模型,同时具备深度推理 (扩展思维模式,一步一步思考复杂答案) 与快速回复 (标准模式,实时生成答案) 的能力。API 用户可以对模型的思考时间进行细粒度控制。

Claude 3.7 Sonnet 在编码和前端 Web 开发方面显著提升,实现了全面领先。

Claude 3.7 Sonnet 的价格与其前代大模型 Claude 3.5 Sonnet 相同:每百万输入 token 3 美元,每百万输出 token 15 美元。

首个混合推理模型

Anthropic 强调,Claude 3.7 Sonnet 与市面上的其他推理模型不同,它是一款混合推理模型。

「正如人类使用同一个大脑进行快速反应和深度思考一样,我们认为推理应该是前沿模型的综合能力,而不是完全独立的模型。这种统一的方法也为用户创造了更无缝的体验。」

首先,Claude 3.7 Sonnet 既是一个普通的大语言模型,也是一个推理模型:你可以选择什么时候让模型快速回答,什么时候让它在回答之前思考更长时间。

在标准模式下,Claude 3.7Sonnet 代表了 Claude 3.5 Sonnet 的升级版。在扩展思维模式下,它在回答之前进行深度思考,这提高了 Claude 3.7Sonnet 在数学、物理、指令遵循、编码和许多其他任务上的表现。

第二,当通过 API 使用 Claude 3.7 Sonnet 时,用户可以精准控制模型的思考时间,开发者可以通过精准控制模型在处理查询时使用的计算资源量,API 用户可以告诉 Claude 思考的数量不超过 N 个 token,N 的值可以是任何值,但输出上限不能超过 128K 个 token。模型能力的表现,取决于允许思考的 token 数量,让开发者在速度 (和成本) 与答案质量之间进行权衡。

事实上,早在上周,就有媒体曝光这款模型的精准控制模型思考时间的能力。业内认为,这为开发者提高了成本效益,使他们能够根据具体需求平衡成本、速度和性能。相比之下,OpenAI 在推理能力上的设计选择较为简单,目前提供的是 「低」、「中」 和 「高」 三个固定设置。

从产品设计来看,OpenAI 更注重面向普通消费者和个人专业用户,因此采用简单易懂的 「低-中-高」 命名方式,而 Anthropic 则更专注于企业市场,其推出的精细化控制功能,允许开发者更精准的来调节 AI 模型的计算资源,使得企业能够在成本、速度和性能之间找到最佳平衡点。

第三,Claude 3.7 Sonnet 将优化重点放在更好地反映企业实际使用 LLM 的现实世界任务上,对数学和计算机科学问题的优化程度较低。

Anthropic 指出,早期测试证明了 Claude 在全面编码能力方面的领导地位,Claude 3.7 Sonnet 在编码和前端 Web 开发方面的能力都有显著提升,实现了行业全面领先。在处理复杂代码库到高级工具使用等领域都有重大改进。在规划代码更改和处理全栈更新方面,它比任何其他模型都要好得多。

Claude 3.7 Sonnet 在 SWE bench Verified 上实现了最先进的性能,该评估用于展示 AI 模型解决现实世界软件问题的能力。


Claude 3.7 Sonnet 在 TAU 工作台上实现了最先进的性能。


Claude 3.7 Sonnet 在指令遵循、一般推理、多模态能力和代理编码方面表现出色,扩展思维在数学和科学方面显著提升。

编码工具 Claude Code

Anthropic 还发布了第一个代理编码工具 Claude Code,目前提供预览版。

Claude Code 可以搜索和读取代码、编辑文件、编写和运行测试、将代码提交和推送到 GitHub,并使用命令行工具等。

「Claude Code 是一个早期产品,但对我们的团队来说已经变得不可或缺,特别是在测试驱动开发、调试复杂问题和大规模重构方面。」

Anthropic 称,在早期测试中,Claude Code 可以一次性完成了通常需要 45 分钟以上手动操作才能完成的任务,从而减少了开发时间和开销。

在接下来的几周里,Anthropic 计划根据使用情况不断改进 Claude Code:增强工具调用的可靠性,增加对长时间运行命令的支持,改进应用内渲染,并扩展 Claude 对其功能的理解。

开发者可通过加入 Claude Code 预览版反馈自己的使用感受和需求,Anthropic 团队将会采纳这些反馈持续构建和改进 Claude Code。
 

推荐阅读

英特尔接受美国政府 78.6 亿美元补贴,未来芯片制造部门出售受限

admin

蚂蚁数科发布可信数据空间软硬一体解决方案 联合清华大学落地双碳场景

admin

鸿蒙微信正式版发布!腾讯:不到一年走完微信 14 年的路

admin