GPT 革命｜DeepSeek 发布新开源模型称仅用 2048 卡训练、能力与 GPT-4o 相当

2025 年 1 月 2 日1253

: 资料图：DeepSeek 公司 logo。

　　【旭才科技】开源模型还在不断进化。12 月 26 日，国内私募机构幻方量化旗下的 DeepSeek 发布新一代开源大模型 DeepSeek-v3，DeepSeek 称该模型是目前最强的开源大模型，能力与闭源的 GPT-4o 相近，而训练仅需要 2048 张英伟达 H800AI 芯片。作为参考，OpenAI 训练最新模型单集群算力规模超过万卡。

　　具体来看，DeepSeek 此次发布的模型为 MoE（混合专家架构）架构，即将任务分类后分配给不同的专家模型解决，参数量为 6710 亿，激活参数为 370 亿。

　　DeepSeek 提供的评测结果显示，该模型在考察百科知识、代码、数学能力的多个评测集中得分超过阿里云 Qwen2.5-72B 和 Meta 的 Llama-3.1-405B 这两个最强的开源模型；在这些榜单中，DeepSeek-v3 得分与 OpenAI 于 2024 年 5 月发布的 GPT-4o，以及 Anthropic 于 6 月发布的 Claude-3.5-Sonnet 两个标杆闭源模型。

下一篇文章

2025 年「债牛」行情能否继续？

上一篇文章

2024 年全国电影票房 425.02 亿元国产影片贡献近八成