马斯克的 xAI 加入「世界模型」竞赛，以助力视频游戏开发

文章来源：财联社

财联社 10 月 12 日讯（编辑牛占林）马斯克旗下的人工智能公司 xAI 正在加速构建所谓的「世界模型 (world models)」，加入 Meta 与谷歌等竞争对手的行列，开发能够理解、构建并操控物理环境的 AI 系统。

据悉，xAI 在今夏从英伟达挖来多名专家，致力于构建下一代 AI 模型。这类模型通过视频和机器人数据进行训练，以便理解现实世界的运行规律。

业界认为，世界模型有望让 AI 的能力突破当前依赖文本训练的大语言模型局限，这些大语言模型支撑着诸如 ChatGPT 和 Grok 等热门 AI 工具，而世界模型技术终将助力创造超越人类的「通用人工智能」(AGI)。

世界模型是实现空间智能的核心，通过整合多模态数据，为空间智能技术在立体空间中进行推理和操作提供内在的环境表征，其也被认为是物理推理的基础，可以通过模拟未来状态从而更加接近类人智能，弥合人与机器之间的认知对齐差异。

两位知情人士透露，xAI 正在研发的世界模型首要目标是用于游戏领域，可自动生成交互式的 3D 环境。其中一人补充称，该技术也可能被应用于机器人 AI 系统。

xAI 已聘请了来自英伟达的两位人工智能研究员——Zeeshan Patel 与 Ethan He。英伟达凭借其 Omniverse 平台在世界模型技术方面处于领先地位，该平台能够创建并运行虚拟仿真环境。

一些科技公司对世界模型寄予厚望，认为其有望让 AI 从软件和虚拟空间走向物理世界，驱动诸如类人机器人等产品。上个月，英伟达表示，世界模型的潜在市场规模可能接近当今全球经济总量。

马斯克在社交平台 X 上发帖称，xAI 计划在明年年底前推出一款「由 AI 生成的优秀游戏」，以兑现他去年设定的目标。

本周二，xAI 发布了其最新的图像与视频生成模型，宣称进行了「大规模升级」，并已向用户免费开放。

据了解，目前的视频生成模型主要是通过学习训练数据中的模式来预测并生成视频帧画面，如 OpenAI 的 Sora。而世界模型的进步在于，它能够具备对物理规律及物体交互的因果理解能力，能在不同环境中实现实时推理与反应。

xAI 正在招聘图像与视频生成方向的技术人才，该团队旨在「打造超越文本的神奇 AI 体验」，让 AI 能够理解并生成跨图像、视频与音频的多模态内容。

这些岗位的薪酬范围为 18 万至 44 万美元。此外，xAI 还开放了一项名为「视频游戏导师」的职位，职责是训练 Grok 生成视频游戏，并让用户体验「AI 辅助游戏设计」，时薪介于 45 至 100 美元。

然而，构建世界模型仍是一项巨大技术挑战。要找到足够丰富的数据来逼真地模拟现实世界、并以此训练模型，至今仍被证明是既困难又昂贵的。

黑马财经