29 C
Changsha
2025 年 10 月 11 日 5 时 12 分 59 秒
商业动态

假期被玩坏了的奥特曼,正在玩弄全世界的算力

如今,春天英伟达的 GTC,秋天 OpenAI 的 DevDay,是硅谷最重要的盛会。它们预告了未来。

在刚过去的 OpenAI 开发者日上,除了发布了 ChatGPT Apps SDK、AgentKit、GPT-5 Codex,奥特曼提到的几组截至 2025 年的数据,揭示 AI 行业正在驶向何方:

  • 平台 400 万开发者;

  • 8 亿 ChatGPT 周活用户;

  • API 调用每分钟 60 亿 token。

让我们就此做一点大胆地假设与简单的计算。

第一,OpenAI 整体每月 tokens 消耗。

基于 API 的调用,显然不是 OpenAI 对外提供 AI 服务的全部。去年,OpenAI 曾披露它的基于 ChatGPT 的消费者订阅业务,收入占比约为 75%。而按照 OpenAI 对未来的收入路线规划,ChatGPT 订阅收入占比将逐步下滑,取而代之的是 API、Agents 与其他新业务占比。当然,目前 OpenAI 正在布局 Agents 相关产品线,并开始探索广告与电商业务,但相比其他两大业务,可以说仍然处于商业化早期阶段。

不妨让我们假定,目前,OpenAI 来自 API 的收入,仍然占据 25%,而且,收入占比对应着 token 的消耗数量。

那么,OpenAI 基于 API 的 token 消耗量,每周将达到 60*60*24*7=60 万亿 tokens,每月则约为 260 万亿。相应的,基于 ChatGPT 订阅的 token 消耗量,每周将达到 180 万亿 tokens,每月约 780 万亿。整个 OpenAI 每月的 token 消耗合计约为 1040 万亿。

这意味着 OpenAI 与谷歌处于相同烈度的竞争之中。谷歌的 AI 工厂同样在疯狂地生产 token,从 5 月的 480 万亿 tokens,骤增至 6 月的 980 万亿。当时,Veo 3 发布不久,Nano Banana 尚未发布。谷歌目前月均 token 消耗量肯定已经突破千万亿量级。而 OpenAI 这次公布的数据应该也没有统计 Sora 2 放量所带来的。

第二,ChatGPT 用户画像。

OpenAI 的 ChatGPT 目前拥有约 8 亿周活用户,每周消耗约 180 万亿 tokens,折算下来人均每周使用约 22.5 万 tokens。一项研究将典型推理任务设定为输入 10k、输出 1.5k tokens,据此估算,平均每位用户每周大约执行 20 次此类推理任务,也就是在每个工作日向 ChatGPT 提出约四个重要问题。

当然,这一抽象的平均值,掩盖了几个实际应用场景中的结构性差异:少数中重度用户贡献了绝大部分 token 消耗;不同重要程度的问题,交互深度与轮次并不相同。

第三,开发者用户画像。

若将 API 调用主要视作由开发者生态贡献,那么,相对 2023 年,OpenAI 平台上的开发者人数增长了 2 倍,而 API 消耗的 token 数量却增加了 20 倍。简言之,短短两年间,平均每位开发者消耗的 token 数量增长了 10 倍。

促成人均消耗量大幅增长的,也许正是深度推理与智能体在各行各业,尤其首先是编码行业的渗透。

在演讲中,奥特曼宣布 GPT-5 Pro 将开放 API。它就非常适合协助完成非常困难的任务,在金融、法律、医疗保健等领域,以及更多需要高准确性和深度推理的领域。此外,OpenAI 的 GPT-5 Codex 正式发布,从 8 月以来,Codex 的日使用量增长了 10 倍以上。

这个趋势仍在增强。智能体的摩尔定律就预言了它能处理的任务的复杂度每 7 个月翻倍;多智能体间的协作,至少将推理消耗进一步放大到简单对话的 15 倍以上。

难怪在绑定英伟达 10GW 的数据中心后,OpenAI 又与 AMD 打得火热,约定了总计高达 6GW 的数据中心。奥特曼已经开始营销它强大 10 倍的 GPT-6,并将数据中心规模提升至 2033 年得到惊人的 250GW。

第四,Sora 2 的峰值 GPU 需求。

从文本推理到多模态生成,算力消耗的曲线将更急剧陡峭。奥特曼还宣布 Sora 2 也将开放 API。多模态将不断向现有应用场景渗透,也有望创造出新的应用市场。

但由于 OpenAI 越来越不透明,不再公开技术细节,对 Sora 2 算力消耗的估算也不得不建立在一系列大胆而高度敏感的假设之上。总体而言,它与模型与视频的性能参数,以及工作负荷模式密切相关。

在初代 Sora 发布的时候,风险投资机构 Factorial Funds 的 Matthias Plappert,就曾基于多重假设估算出,72 万张 H100 才能满足它的峰值需求。他假设,初代 Sora 的参数规模为 200 亿,且以 24 帧/秒编码,采样步数为 250 步,它与典型的 DiT 模型类似,即 6.75 亿参数的模型,8 倍的压缩率,以及单帧画面 524×10^9 次浮点运算。他还假设 Sora 在 TikTok 与 Youtube 上的渗透率分别为 50% 与 15%。他还考虑了算力实际利用率,峰值需求与候选视频需求。

可见,模型规模、采样步数、硬件效率,以及 OpenAI 在 AI 社交短视频上的野心,将是决定 Sora 2 整体算力需求最关键的变量与杠杆。

整体而言,扩散模型仍然满足扩展定律。年初,对标初代 Sora 的 Step-Video-T2V 参数规模达到了 300 亿,也许 Sora 2 的参数规模也有小幅增长。业界也在探索通过算法改进推动采样步数的下降。此外,从 Hopper 架构到 Blackwell 架构算力性能的提升,以及针对性地推出定制芯片,都在提升算力效率。

不妨先让我们假定,Sora 2 的参数规模增长 2.5 倍至 500 亿参数;它主要在 GB200 的 FB8 精度下推理,约较 H100 的 FP16 精度提升了 5 倍;其他变量此消彼长,整体不变。再让我们假定,Sora 2 继续向 TikTok 与 Youtube 输出相同体量的内容,且 OpenAI 最新的独立应用 Sora,将成为短视频平台的有力竞争者,即每天生成的 AI 视频总时长,等同于对外输出的体量。

换言之,Sora 2 的峰值算力需求仍高达约 72 万张 GPU,只是硬件代际从 H100 更换为 GB200。

这当然只是一个静态的、片面的估算。随着 AI 视频生成性能的提升,其应用将从社交分享扩展到影视制作等专业领域;社交和短视频平台也将卷入这场新的军备竞赛,把算力竞争推向新的量级。

难怪奥特曼的目标,是今年底百万张卡。