本文来自微信公众号:凤凰网科技 (ID:ifeng_tech),作者:姜凡,编辑:董雨晴,题图来自:AI 生成
DeepSeek 在 8 月 21 日正式发布 V3.1,一则官方补充留言激起千层浪。
是的,因为官方在 V3.1 的发布文章里把有关过程算力支持的描述写得太隐晦,又自己在评论区补充了一句。
一夜过去,短短的一句话,A 股市场集体 「开香槟」。据财联社报道,全市场超 2800 只个股上涨。从板块来看,算力股全线爆发,云天励飞等多股涨停。芯片股集体大涨,寒武纪涨停创历史新高,中芯国际大涨 14%,海光信息涨停。
资本市场的反应并不是对一句口号的追捧,而是看到了国产芯片在算力赛道上真正切入国际前沿的可能。DeepSeek 的这句话,不仅被视作一次 「技术换挡」 的信号,更是国内算力产业链罕见的共振时刻。
DeepSeek 这枚炸弹,到底是什么?
要理解 「UE8M0 FP8」 为何能引发如此大的关注,必须将其拆解为两个部分:作为本体的 「FP8」 和作为灵魂的 「UE8M0」。FP8 本身是一种将数字压缩到仅用 8 位 (bit)来存储的浮点格式,旨在用更少的数据位宽降低 AI 大模型训练和推理中对显存带宽的空前压力。
而 DeepSeek 的模型一直使用的都是这个格式,但有一个问题,国内的芯片公司只有极少数 GPU 厂商原生支持 FP8,比如摩尔线程,其旗舰产品 MTT S5000 就是国内首批原生支持 FP8 并大规模量产的 GPU。大家普遍支持的都是 FP16,这使得国产芯片在跑 DeepSeek 的模型时,性能至少会折损一半,所以,这也解释了为什么大家还是喜欢买英伟达的芯片,因为如果是过去的国产芯片,起手就已经不是 「满血」 了,更别说自己在本地调配时还有可能因为水平不足再降低性能。
图|豆包 AI 生成
有 AI infra 企业告诉凤凰网科技,解决方案就是在软件上做突破,国内有专门针对国产芯片做软件适配 DeepSeek 的企业,比如清程极智,其原则是让国产芯片在用 DeepSeek 时可以提升性能。
这里补充一个知识,纯粹的 FP8(如常见的 E4M3 或 E5M2 格式)在动态范围和精度上存在固有权衡,处理具有极端大小值的复杂数据时仍可能面临精度损失或数值溢出的挑战。通俗地说,就是数据会有损,就像你压缩打包一批衣服,可以压到很小,但衣服会皱得厉害。
而真正的突破来自由 Meta、谷歌等科技巨头推动的开放计算项目 (OCP)所制定的 MX(Microscaling)格式,其核心思想不再是整个张量共用一个大缩放因子,而是将其切分为微小的数据块,并为每个块单独配备一个轻量级的 8 位缩放因子,从而在保持 8 位存储效率的同时,动态范围扩展了数十倍。通俗地说,就是把一批衣服分开打包。
回到 DeepSeek 这次发布的 「UE8M0」,正是 MX 格式中为每个数据块指定的那个关键缩放因子的数据格式。它是一种极为高效的 8 位指数表示法:「U」 代表无符号 (Unsigned),意味着它永远是一个正数,无需符号位;「E8」 代表 8 个比特全部用于表示指数 (Exponent);「M0」 代表没有尾数 (Mantissa)。用一个比喻来形容,UE8M0 就像一个 「只调档位、不调微刻度」 的超级节能灯泡开关,就像 AI 芯片里的快进键。
这种 「全指数」 设计带来了两大根本性优势:其一,硬件在执行缩放 (即数据还原)时异常简单快捷,只需进行简单的整数次幂运算 (相当于直接移动二进制小数点),完全规避了复杂的浮点乘法与舍入操作,极大缩短了关键计算路径,提升了能效。
其二,其巨大的动态范围 (从 2⁻¹²⁷到 2¹²⁸)足以确保任何数据块都能被恰到好处地缩放至 FP8 的表示范围内,从而几乎完全避免了因数值过大而溢出或过小而被舍入为零的信息损失问题,错误率曲线得以从高位大幅降至一条平坦的低水平线。
所以说 UE8M0 FP8 是让国产芯片在跑大模型,尤其是在跑 DeepSeek 的模型时——更快、更省、更能扛大数。
许多现有国产 AI 加速器并未原生支持完整的 E4M3/E5M2 FP8 计算单元,但其架构正在向支持块缩放 (Block Scaling)的 MX 格式演进。UE8M0 作为缩放因子,其本身格式极简,无需复杂的专用浮点乘法器即可实现,降低了硬件实现门槛。
更重要的是,它为突破 「内存墙」 提供了最优解:相较于传统的为每个数据块配备一个 32 位 FP32 缩放因子,UE8M0 仅需追加 8 位,即可高效管理 32 个 FP8 数据,带宽开销骤降 75%。这对于 HBM 带宽仍处于追赶阶段的国产芯片而言,是一项通过数据格式创新实现 「带宽减负」 的架构级优化,成为了在下一代竞争中实现效能跃升的关键技术路径。因此,这不仅是单纯的技术兼容,更是一次在主流标准框架内,通过前沿设计实现差异化竞争力的精准卡位。
中国算力产业正在迎来 「顿悟时刻」
从产业层面看,DeepSeek 的这次表态不只是一种技术选择,更是一次产业生态的确认。想想看,中国最好用的大模型产品与英伟达如此紧密地捆绑,本身是一件不乐观的事情,DeepSeek 这一次的发布,可以看作一种渐进式的解绑,官方主动下场为国产芯片发展生态站位。
UE8M0 FP8 的落地,也意味着国产算力厂商已经在浮点格式、编译器优化、训练框架适配等环节上实现全栈打通,这背后意味着长期积累的软硬件协同终于显现成果。
至于其所提到的下一代国产芯片是谁,凤凰网科技此前了解到的,目前成熟的头部国产芯片公司其实都与 DeepSeek 有所接触。另外,有不少本身都是支持 FP8 的,除了摩尔线程,今天涨得最凶猛的寒武纪,旗下的思元 590 以及最新 690 系列都支持。
凤凰网科技还了解到,摩尔线程的 MUSA 架构本就原生支持硬件 FP8 张量加速计算,现在还能够很好地支持 UE8M0 FP8 Scale,利用硬件原生 FP8,相对于传统的 FP16 计算能够实现两倍的浮点算力提升、访存和通信带宽效率提升和存储容量利用率提升,同时最优化张量表达精度。
所以说,其实利好谁并不需要猜测,因为 DeepSeek 此次就是要普遍支持国产芯片生态。
DeepSeek 一句话背后,是对未来大模型算力效率的重新定义,也是国产芯片厂商获得国际话语权的起点。资本市场的集体狂欢,既有情绪成分,更折射出一个信号:中国芯片正迎来前所未有的窗口期,而这一次,它们有机会真正站到技术潮水的前沿。
本文来自微信公众号:凤凰网科技 (ID:ifeng_tech),作者:姜凡,编辑:董雨晴