全球资讯

GPT 革命|DeepSeek 发布新开源模型 称仅用 2048 卡训练、能力与 GPT-4o 相当

资料图:DeepSeek 公司 logo。

  【旭才科技】开源模型还在不断进化。12 月 26 日,国内私募机构幻方量化旗下的 DeepSeek 发布新一代开源大模型 DeepSeek-v3,DeepSeek 称该模型是目前最强的开源大模型,能力与闭源的 GPT-4o 相近,而训练仅需要 2048 张英伟达 H800AI 芯片。作为参考,OpenAI 训练最新模型单集群算力规模超过万卡。

  具体来看,DeepSeek 此次发布的模型为 MoE(混合专家架构) 架构,即将任务分类后分配给不同的专家模型解决,参数量为 6710 亿,激活参数为 370 亿。

  DeepSeek 提供的评测结果显示,该模型在考察百科知识、代码、数学能力的多个评测集中得分超过阿里云 Qwen2.5-72B 和 Meta 的 Llama-3.1-405B 这两个最强的开源模型;在这些榜单中,DeepSeek-v3 得分与 OpenAI 于 2024 年 5 月发布的 GPT-4o,以及 Anthropic 于 6 月发布的 Claude-3.5-Sonnet 两个标杆闭源模型。




推荐阅读

美联储理事谈 「AI 监管」:不要操之过急!

admin

7 月社会消费品零售总额同比增速加快至 2.7% 汽车消费继续下降

admin

特朗普:普京涉乌言论令人 「生气」,或对俄油加征二级关税

admin