文章来源:财联社
《科创板日报》9 月 13 日讯 在 AI 浪潮中,模型参数增长和算力堆叠一度成为竞逐焦点。不过站在当下时点,当生成式 AI 开启规模化落地,战场已经转向推理:真实场景中海量数据的瞬间调用、百万 Token 的连续推理、长上下文的高效处理,在提升了算力需求的同时,也重新定义了算力基建的价值链。
在日前的 AI 基础设施峰会上,英伟达发布了全新 Rubin CPX GPU。据官方介绍,这颗芯片专为长上下文推理负载设计,是英伟达首颗专为需要一次性处理大量知识 (数百万级别 tokens) 并进行 AI 推理的模型构建的芯片。
英伟达称,这颗芯片可以为客户带来 「前所未有的投资回报率」——每部署价值 1 亿美元的新芯片,将带来 50 亿美元收入,投资回报率约 50 倍,远超 GB200 NVL72 的约 10 倍回报率。此外,公司宣布 GB300 NVL72 机架级系统在最新 MLPerf 推理基准测试中创造了新推理基准记录。
花旗研究指出,在 ASIC 竞争加剧的环境下,英伟达曾经一年一度的产品发布脚步开始提速,Rubin CPX 在产品路线图中 「插队」,标志着 「推理时代」 已经到来。
分析师进一步指出,Rubin CPX 的发布和 MLPerf 新纪录都展现了英伟达在 AI 基建领域的持续创新能力。随着 AI 推理需求、特别是长语境推理需求爆发,英伟达的新品组合有望带动收入显著增长。
值得注意的是。本周引发全球市场瞩目的甲骨文,也提到了推理市场需求的爆发。
在业绩会上,公司创始人 Larry Ellison 明确指出,AI 正从根本上改变甲骨文,AI 推理市场将 「远大于」AI 训练市场,而市场上的推理算力正在被耗尽。
虽说甲骨文指数级别的订单爆炸性增长,以及随之而来对 OpenAI 依赖性的质疑,让其股价在飙升之后连跌两天。但摩根大通也表示,承认甲骨文在获取 OCI 业务方面取得了 「令人印象深刻的成就」,并认可其在 AI 领域的长期潜力。
▌算力基础设施进入长上下文推理新阶段
实际上拉长时间线就能发现,海内外大厂 Token 调用量已出现明显加速拐点,推理端算力需求快速增长。
今年 5 月 Google I/O 大会的数据显示,Google 的 Token 月均调用量从去年 4 月的 9.7 万亿增长至今年 4 月的 480 万亿,增长 50 倍。根据微软三季度电话会数据,Azure AI 基础设施在今年一季度处理了超 100 万亿 Token,较去年同期增长 5 倍,其中 3 月份单月 Token 调用量达 50 万亿。国内互联网大厂来看,今年 5 月字节火山引擎 Token 日均调用量为 16.4 万亿 (月均 508T),是去年 5 月的 137 倍。
过去一年,随着生成式 AI 进入规模化落地阶段,行业对 「长上下文」 的需求快速上升。无论是企业级知识库问答、代码生成,还是多模态长视频生成,均需要模型在极大输入序列下保持推理准确性与计算效率。然而,现有 GPU 在应对超长上下文时普遍存在内存带宽瓶颈与计算冗余,导致算力利用率不足。
东吴证券指出,从产业角度来看,Rubin CPX 的推出不仅是英伟达产品线的升级,更意味着海外算力基础设施进入 「上下文与生成分工协作」 的新阶段。随着百万 Token 推理与长视频生成成为 AI 应用的标配需求,硬件和软件的耦合度显著提高,算力产业链的价值量同步上升。无论是 GPU、存储、网络,还是配套的高速 PCB、光模块与封装工艺,相关厂商都有望深度受益。