2025 年 9 月 2 日 17 时 14 分 36 秒
全球资讯

GPT 革命|DeepSeek 发布新开源模型 称仅用 2048 卡训练、能力与 GPT-4o 相当

资料图:DeepSeek 公司 logo。

  【旭才科技】开源模型还在不断进化。12 月 26 日,国内私募机构幻方量化旗下的 DeepSeek 发布新一代开源大模型 DeepSeek-v3,DeepSeek 称该模型是目前最强的开源大模型,能力与闭源的 GPT-4o 相近,而训练仅需要 2048 张英伟达 H800AI 芯片。作为参考,OpenAI 训练最新模型单集群算力规模超过万卡。

  具体来看,DeepSeek 此次发布的模型为 MoE(混合专家架构) 架构,即将任务分类后分配给不同的专家模型解决,参数量为 6710 亿,激活参数为 370 亿。

  DeepSeek 提供的评测结果显示,该模型在考察百科知识、代码、数学能力的多个评测集中得分超过阿里云 Qwen2.5-72B 和 Meta 的 Llama-3.1-405B 这两个最强的开源模型;在这些榜单中,DeepSeek-v3 得分与 OpenAI 于 2024 年 5 月发布的 GPT-4o,以及 Anthropic 于 6 月发布的 Claude-3.5-Sonnet 两个标杆闭源模型。




推荐阅读

人事观察|接替时光辉 候补中委马汉成跨省履新贵州省委副书记

admin

今日收盘:固态电池概念大涨 沪指午后拉升微跌 0.1%

admin

交通运输部:氢燃料电池汽车推广应量力而行

admin