【旭才科技】3 月 1 日消息,AI 公司 DeepSeek 为期五天的 「代码开源周」 告一段落。
本周一至周五,DeepSeek 以每日不定时一更的频率,开源多个代码库,涵盖 FlashMLA、DeepEP 通信库、DeepGEMM、并行优化策略、并行文件系统 3FS。
DeepSeek 认为:通用人工智能 (AGI) 不存在 「高高在上的象牙塔」,而是秉持车库创业精神,与社区共同构建创新力量。
五天的代码开源,展示了 DeepSeek 在优化大模型训练、推理、通信以及文件系统方面的技术创新与突破。这些开源项目不仅提升了 AI 模型的性能和效率,也为 AI 领域的研究者和开发者提供了宝贵的资源和工具。
从模型开源,到代码开源,DeepSeek 凭一己之力,重塑了大模型世界。
英伟达跌落神坛
在这一周里,AI 大模型火起来至今的最大赢家 (赚钱最多) 英伟达发布了最新财报。但是股价已经连跌多日,从 130 多美元跌到 120 美元左右。
英伟达 2025 财年第四季度营收同比增长 78%,较此前连续五个季度三位数增长的态势显著放缓,且同比增速为近两年来最低水平。2024 财年第四季度曾达到 265% 的峰值。
分析师们在分析英伟达营收增速放缓的原因时认为一方面是微软、Meta 等核心客户同步研发自研芯片以减少对英伟达的依赖;一方面是DeepSeek-R1 低成本 AI 模型降低算力需求,部分削弱市场对英伟达高端芯片的依赖。
当日,英伟达股价大跌 8.5%,市值蒸发 2740 亿美元。
一个月前,DeepSeek 发布的低成本、高性能开源推理模型 R1 引发市场震动,英伟达股价一度暴跌近 17%。
尽管英伟达 CEO 黄仁勋强调,DeepSeek 的开源工具和低成本模型虽然对行业产生了冲击,但英伟达通过软硬件协同优化,依然保持了在 AI 芯片领域的领先地位。
但是也未能阻止投资者对其业绩增速放缓、毛利率下降及中国 AI 公司 DeepSeek 的影响的担忧。
被改变的还有同行。
OpenAI 最新大模型 GPT-4.5 被槽太贵
闭源大模型 no1 的 OpenAI 在周五发布了最新的最强大模型 GPT-4.5,当然也是最贵的。
GPT-4.5 是 OpenAI 史上参数规模最大的模型,其计算量是上一代的 10 倍。GPT-4.5 的 API 价格为每百万 Tokens 75 美元,相较上一代 GPT-4o 的 2.5 美元上涨 30 倍。
GPT-4.5 不是一个专注于推理的模型,GPT-4.5 并不能完全替代 GPT-4o,在基准测试中它的某些能力低于 o1、o3-mini。
这款被网友吐槽 「贵得要死」 的大模型,并没能如 OpenAI 此前的历届旗舰大模型发布时一样引发好评热议如潮。现在,更多人会用 DeepSeek 来酸它:有免费好用的 DeepSeek 开源可用,给我一个花这么多钱用你的理由?
附上 DeepSeek 代码开源周内容:
2 月 24 日:Flash MLA 开源
(详情: https://www.techweb.com.cn/it/2025-02-24/2957370.shtml)
开源内容:DeepSeek 开源了 Flash MLA,这是一个针对英伟达 Hopper GPU 优化的高效 MLA(Multi-head Latent Attention,多头潜注意力) 解码内核。
核心特性:特别针对可变长度序列进行优化,使用基准为 Hopper GPU、CUDA 12.3 及以上版本、PyTorch 2.0 及以上版本。在 H800 SXM5 平台上,内存受限配置下可达最高 3000GB/s,计算受限配置下可达峰值 580 TFLOPS。
技术亮点:FlashMLA 的设计参考了 FlashAttention 2&3 以及 CUTLASS 的技术实现,通过 KV 压缩与潜在变量、低秩降维技术、动态序列处理等优化,显著减少了大模型训练和推理过程中的内存占用。
2 月 25 日:DeepEP 通信库开源
(详情:https://www.techweb.com.cn/it/2025-02-25/2957421.shtml)
开源内容:DeepSeek 开源了 DeepEP,这是一个用于 MoE(混合专家) 模型训练和推理的 EP(Expert Parallelism) 通信库。
核心特性:为所有 GPU 内核提供高吞吐量和低延迟,支持低精度操作 (包括 FP8)。针对 NVLink 到 RDMA 的非对称带宽转发场景进行深度优化,提供高吞吐量,并支持 SM 数量控制。
技术亮点:对于对延迟敏感的推理解码,DeepEP 包含一组低延迟内核和纯 RDMA,以最大限度地减少延迟。同时,引入了一种基于钩子的通信计算重叠方法,不占用任何 SM 资源。
2 月 26 日:DeepGEMM 代码库开源
(详情:https://www.techweb.com.cn/it/2025-02-26/2957487.shtml)
开源内容:DeepSeek 开源了 DeepGEMM 代码库,专为简洁高效的 FP8 通用矩阵乘法 (GEMMs) 而设计。
核心特性:同时支持普通的和专家混合 (MoE) 分组的 GEMM 运算,为 V3/R1 训练和推理提供动力支持。使用 CUDA 编写,无需编译,通过轻量级即时编译模块在运行时编译所有内核。
技术亮点:DeepGEMM 设计简洁,代码量约为 300 行,但性能在各种矩阵形状上与专家调优的库相匹配或超越。在 H800 上测试,计算性能最高可达 1358 TFLOPS,内存宽带最高可达 2668 GB/s。
2 月 27 日:并行优化策略开源
(详情:https://www.techweb.com.cn/internet/2025-02-27/2957552.shtml)
开源内容:DeepSeek 开源了三项并行优化策略,包括 DualPipe、EPLB 和 Profile-data。
DualPipe:一种用于 V3/R1 模型训练中实现计算与通信重叠的双向流水线并行算法,显著减少管道气泡 (空闲时间)。
EPLB:一个针对 V3/R1 的专家并行负载均衡工具,根据估计的专家负载计算平衡的专家复制和放置计划。
Profile-data:DeepSeek 基础设施中的数据分析,包括来自训练和推理框架的性能剖析数据,旨在帮助社区更深入地理解通信与计算重叠策略及相关底层实现细节。
2 月 28 日:3FS 文件系统开源
(详情:https://www.techweb.com.cn/internet/2025-02-28/2957580.shtml)
开源内容:DeepSeek 开源了 Fire-Flyer 文件系统 (3FS),一个高性能并行文件系统。
核心特性:应对 AI 训练和推理工作负载的挑战,利用现代 SSD 和 RDMA 网络提供共享存储层,简化分布式应用程序的开发。在由 180 个存储节点组成的大型测试集群上,总读取吞吐量达到约 6.6 个 TIB/S。
技术亮点:3FS 的主要功能和优势包括性能和可用性、强一致性、文件接口开发、多样化的工作负载 (如数据准备、数据加载器、检查点、用于推理的 KVCache) 等。