周四,微软、OpenAI 与埃隆·马斯克旗下的 xAI 不约而同地发布了各自最新的 AI 模型,此举不仅标志着 AI 赛道的竞争已进入白热化阶段,也凸显了核心技术正以前所未有的速度向前推进。
微软:自研模型,志在掌控 AI 命运
微软周四推出了两款自主研发的强大 AI 模型,此举标志着微软的人工智能部门将不再 「藏于幕后」,而是要正式走向台前,与 OpenAI 等行业巨头正面竞争,从而在高风险的 AI 赛道上掌握自己的命运。
MAI-Voice-1:一款高效的语音 AI 模型,能够在单个 GPU 上运行,并在不到一秒内生成一分钟的音频。
· MAI-1-preview:一款文本模型,预计将为未来版本的 Copilot AI 助手提供支持。
这两款模型在设计上都高度注重成本效益。 微软人工智能部门负责人穆斯塔法·苏莱曼 (Mustafa Suleyman) 透露,微软采用了部分来自开源社区的技术,以 MAI-1-preview 为例,其训练仅使用了约 1.5 万颗英伟达 H-100 GPU,远低于 xAI 的 Grok 模型所使用的超 10 万颗。
「如今,训练模型的艺术就在于选择完美的数据,避免在无效的 Token 上浪费任何计算力,」 苏莱曼强调。
尽管 AI 模型日趋高效,但消费者需求和新技术对算力的依赖持续增长,导致 AI 公司面临着巨大的成本挑战。苏莱曼透露,微软的 AI 团队已在全球多个顶级数据中心着手开发下一代模型,这些数据中心均配备了英伟达的下一代芯片 GB-200。他描绘了一个 「庞大的五年发展路线图」,并表示 「每个季度都在进行投资」。
「作为全球最大的公司之一,我们必须具备打造世界最强模型的内部专业能力,」 苏莱曼表示。不过,他也试图淡化与长期合作伙伴 OpenAI 的潜在竞争,称 「我们的目标是深化合作关系」。
作为一名 AI 安全的倡导者,苏莱曼近期曾撰文警告 「看似有意识的 AI」 的危险,并表示微软的目标是在 「后训练」 阶段,像雕刻一样移除让模型看起来拥有情感和目标的特征。「盲目模仿所有人类能力存在实际风险,而现在正是我们主动思考这些风险的时候。」
有分析认为,尽管微软仍处于构建强大 AI 模型的初期阶段,但此举对于微软保持长期竞争力至关重要。其最终目标,或许是借助 Windows 和 Office 的强大分发渠道,利用自研 AI 模型和基础设施为这些核心产品提供支持。
OpenAI:升级语音 API,定义 「下一个媒介」
同一天,OpenAI 也发布了其迄今为止最先进的语音模型 gpt-realtime,并宣布其 Realtime API 在历经数月公测后已广泛可用。
「我们认为语音是下一个媒介,」OpenAI 产品负责人迈克达德·贾弗 (Miqdad Jaffer) 表示,「通过语音来表达,比文本更简单、更自然。」
据介绍,OpenAI 于 2024 年 10 月首次以公测版形式推出了 Realtime API,此次更新后,将支持远程模型上下文协议 (MCP) 服务器、图像输入和电话呼叫。OpenAI 方面表示,MCP 非常适合语音命令,能让用户无缝地通过已连接的应用程序执行操作。
这些扩展功能将使得语音智能体能够访问更多工具,并拥有更丰富的上下文来协助用户。这不仅简化了将 AI 模型与数据源连接的过程,并且 MCP 作为一项开放标准,还能在确保连接安全性的同时,优先保护用户的数据和隐私。
新的 gpt-realtime 模型则在多个维度上实现了显著提升:不仅在智能化、函数调用和遵循复杂指令方面有所改进,还能在单个句子中途流畅地切换语言。其演示版本展现了逼真的类人特性,声音的起伏能够表达多种情感,甚至在面对 「越狱尝试」 时也能冷静地重新引导对话。此外,该模型还能分析照片内容,并就其观察与用户展开讨论。
贾弗特别强调了 「遵循指令」 能力的重要性,他认为 「能够给出一组指令并让模型稳定地执行,是构建模型的关键」。
此外,OpenAI 还新增了两种专供 API 用户的语音 Cedar 和 Marin。从周四开始,新模型和 API 已向所有开发者开放。贾弗建议开发者,「去做对你的用户最有益的事情,我们相信语音就是未来。」
xAI:切入编程赛道,主打经济高效
与此同时,马斯克旗下的 xAI 也加入了这场发布热潮,推出了一款名为 grok-code-fast-1 的 「快速且经济」 的智能编程模型,正式进军 AI 编程这一关键领域。
xAI 表示,该模型将在有限时间内免费提供,首批发布合作伙伴包括了 GitHub Copilot 和 Windsurf。其 「优势在于以经济、紧凑的形式提供强劲的性能」,旨在成为处理常见编程任务的高性价比选择。
智能编程领域的竞争正日趋激烈。 微软的 GitHub Copilot 已在企业中广泛应用,其 CEO 萨提亚·纳德拉 (Satya Nadella) 在 4 月透露,公司内部已有 20% 至 30% 的代码由 AI 编写。而 OpenAI 旗下的编程助手 Codex 也已于 6 月向 ChatGPT Plus 用户开放。xAI 此刻入局,无疑将使这一赛道的竞争格局更趋复杂。
三雄竞逐,创新与竞争并存
微软、OpenAI 和 xAI 在同一天的模型发布,共同勾勒出当前 AI 行业竞争激烈、创新层出不穷的图景。
微软正着力于通过自主研发掌握核心技术,并强调模型的成本效益和长期战略部署;OpenAI 则持续深耕其技术优势,力图在作为 「下一个媒介」 的语音交互上定义行业标准;而 xAI 则以其 「快速且经济」 的智能编程模型,切入 AI 编程助手这一关键应用领域。
这三家公司尽管在具体策略和侧重点上有所不同,但都殊途同归地致力于推动 AI 技术的边界,并将其融入更广泛的产品和应用中。这场 「三雄争霸」 不仅加速了技术迭代,也预示着人工智能将在未来深刻改变我们的工作和生活方式。(小小)