前沿科技

OpenAI 发布 GPT-4.1 模型:最强编码能力,仅提供 API 访问,价格降了

【旭才科技】4 月 15 日消息,OpenAI 推出专为开发者打造的全新模型系列——GPT-4.1。该系列包含三个新成员:旗舰级 GPT-4.1、高速的 GPT-4.1 Mini,以及最小、最快、最经济的 GPT-4.1 Nano。

据介绍,GPT‑4.1 系列模型在编码能力、复杂指令遵循、长文本处理 (首次支持高达一百万 Token 上下文,且无额外费用) 以及多模态理解方面均实现了显著提升,性能全面超越 GPT-4o,并在关键指标上比肩甚至超越 GPT-4.5。

值得注意的是,GPT-4.1 系列仅通过 API 提供。

此前,OpenAI 刚刚出台了一项针对未来新的大模型 AIP 调用的规定,要求 AIP 调用组织完成身份验证流程,才能解锁访问 OpenAI 平台最先进模型和功能。也就是说 「不通过验证就不让用最新模型」。尽管 OpenAI 的 AIP 组织验证支持 200 多个国家和地区,但中国大陆开发者仍面临资格限制。

另外,OpenAI 史上最贵大模型将被 「淘汰」。

OpenAI 称,将在 API 中弃用 GPT-4.5 预览版,因为 GPT-4.1 在许多关键功能上提供了改进或相似的性能,且成本和延迟更低。GPT-4.5 预览版将在三个月后,即 2025 年 7 月 14 日关闭,以便开发者有足够的时间进行过渡。

GPT-4.1 三大模型

旗舰模型 GPT‑4.1 性能优化集中于编码、指令遵循、长文本理解上:

1、最强编码:GPT‑4.1 在 SWE-bench Verified 上的得分为 54.6%,比 GPT‑4o 提高了 21.4 个百分点,比 GPT‑4.5 提高了 26.6 个百分点。

2、指令遵循:在 Scale 的 MultiChallenge⁠上,GPT‑4.1 的得分为 38.3%,比 GPT‑4o 提高了 10.5 个百分点。

3、长上下文:在 Video-MME 上,GPT‑4.1 取得了新的 SOTA——在长视频、无字幕类别中得分 72.0%,高于 GPT-4o 的 65.3%。

GPT-4.1 mini 在小型模型性能方面取得了重大飞跃,甚至在许多基准测试中超越了 GPT-4o。它在智能评估中与 GPT-4o 相当或超过,同时将延迟减少了近一半,成本降低了 83%。

对于需要低延迟的任务,GPT-4.1 nano 是最快且最便宜的模型。它以其 100 万个标记的上下文窗口,在小型尺寸下提供卓越的性能,并在 MMLU 上得分 80.1%,在 GPQA 上得分 50.3%,在 Aider 多语言编码上得分 9.8%——甚至高于 GPT-4o mini。它非常适合分类或自动补全等任务。

API 定价

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 现在对所有开发者开放,仅通过 API 提供。

价格方面,GPT‑4.1 比 GPT‑4o 便宜 26%,输入、输出分别是每百万 token 2 美元和 8 美元。

GPT‑4.1 nano 是 OpenAI 迄今为止价格最低、速度最快的模型,输入、输出分别为 0.1 美元和 0.4 美元。

对于重复使用相同上下文的查询,这些新模型的提示词缓存折扣已从之前的 50% 提高至 75%。

最后,长上下文请求已包含在标准的按 Token 计费内,无需额外费用。

今年 2 月,OpenAI 发布了自己有史以来最贵的大模型 GPT-4.5,GPT-4.5 的 API 定价高达 75 美元/百万 tokens 输入、150 美元/百万 tokens 输出,被开发者吐槽 「用不起」!

这次 GPT-4.1 的价格,你觉得如何?

通过视频,OpenAI 团队成员介绍了 GPT‑4.1 系列模型模型的性能优势、基准测试结果,并通过实时演示,如现场编写功能完善的前端应用、处理超长日志文件等,展现了它们的实际能力。

一起看看:

编码能力显著优于 GPT-4o

GPT-4.1 在各种编码任务中显著优于 GPT-4o,包括主动解决编码任务、前端编码、减少不必要的编辑、可靠地遵循差异格式、确保一致的工具使用等。

在 SWE-bench Verified(一个衡量现实世界软件工程技能的指标) 上,GPT-4.1 完成了 54.6% 的任务,而 GPT-4o 完成了 33.2%(2024-11-20)。这反映了 GPT-4.1 模型在探索代码库、完成任务以及生成既可运行又可通过测试的代码方面的能力提升。

对于希望编辑大型文件的 API 开发者来说,GPT-4.1 在多种格式下的代码差异方面更加可靠。Aider 的多语言差异基准测试中,GPT-4.1 的成绩是 GPT-4o 的两倍多,并且甚至比 GPT-4.5 高出 8 个百分点。

GPT-4.1 专门训练以更可靠地遵循 diff 格式,这使得开发者只需让模型输出更改的行,而不是重写整个文件,从而节省成本和延迟。

对于喜欢重写整个文件的开发者,GPT-4.1 的输出 token 限制提高到了 32,768 个 (相比 GPT-4o 的 16,384 个 tokens 有所增加)。

GPT-4.1 在前端编码方面也显著优于 GPT-4o,能够创建功能更强大、外观更美观的网页应用。在对比测试中,评分人员 80% 的时间更喜欢 GPT-4.1 生成的网站,而不是 GPT-4o 生成的网站。

除了上述基准测试之外,GPT-4.1 在更可靠地遵循格式方面表现更佳,并且更少进行不必要的编辑。在 OpenAI 内部评估中,代码中的不必要的编辑从 GPT-4o 的 9% 降至 GPT-4.1 的 2%。

指令遵循

GPT-4.1 更可靠地遵循指令,我们在各种指令遵循评估中测量到了显著的改进。GPT-4.1 在困难提示方面的表现相较于 GPT-4o 有了显著提升。

多轮指令跟随对于许多开发者来说至关重要——模型需要能够在对话的深层保持连贯性,并跟踪用户之前告诉它的信息。OpenAI 训练了 GPT-4.1,使其能够更好地从对话中的过去消息中提取信息,从而实现更自然的对话。

在 Scale 的 MultiChallenge 基准测试中 GPT‑4.1 虽然不及 o1 和 GPT-4.5,但已经可以追上 o3-mini,并且比 GPT‑4o 提升了 10.5 个百分点之多。

GPT-4.1 在 IFEval 上的得分也为 87.4%,而 GPT-4o 的得分为 81.0%。IFEval 使用带有可验证指令的提示 (例如,指定内容长度或避免某些术语或格式)。

长文本

GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 可以处理多达 100 万个上下文标记——比之前的 GPT-4o 模型多 128,000 个,非常适合处理大型代码库或大量长文档。

OpenAI 展示了 GPT-4.1 在上下文窗口内不同位置检索一条隐藏的少量信息 (即一根 「针」) 的能力,也就是 「大海捞针」 的能力。

OpenAI 还发布了用于评估多跳长上下文推理的数据集 Graphwalks。这是因为,许多需要长上下文的开发者用例需要在上下文中进行多个逻辑跳跃,例如在编写代码时在多个文件之间跳转,或者在回答复杂的法律问题时交叉引用文档等。

Graphwalks 需要模型跨上下文多个位置进行推理,其使用由十六进制散列组成的定向图填充上下文窗口,然后要求模型从图中的一个随机节点开始进行广度优先搜索 (BFS),然后要求它返回一定深度的所有节点。

GPT-4.1 在上下文长度达到 128K 个 token 时优于 GPT-4o。

推荐阅读

高德地图与联想百应合作推出一键直达电脑服务

admin

大排长龙的网红社区店,背地里亏了多少

admin

:苹果官宣 9 月 10 日举行新品发布会,拼多多股价大跌 28%

admin