全球资讯

GPT 革命|DeepSeek 发布新开源模型 称仅用 2048 卡训练、能力与 GPT-4o 相当

资料图:DeepSeek 公司 logo。

  【旭才科技】开源模型还在不断进化。12 月 26 日,国内私募机构幻方量化旗下的 DeepSeek 发布新一代开源大模型 DeepSeek-v3,DeepSeek 称该模型是目前最强的开源大模型,能力与闭源的 GPT-4o 相近,而训练仅需要 2048 张英伟达 H800AI 芯片。作为参考,OpenAI 训练最新模型单集群算力规模超过万卡。

  具体来看,DeepSeek 此次发布的模型为 MoE(混合专家架构) 架构,即将任务分类后分配给不同的专家模型解决,参数量为 6710 亿,激活参数为 370 亿。

  DeepSeek 提供的评测结果显示,该模型在考察百科知识、代码、数学能力的多个评测集中得分超过阿里云 Qwen2.5-72B 和 Meta 的 Llama-3.1-405B 这两个最强的开源模型;在这些榜单中,DeepSeek-v3 得分与 OpenAI 于 2024 年 5 月发布的 GPT-4o,以及 Anthropic 于 6 月发布的 Claude-3.5-Sonnet 两个标杆闭源模型。




推荐阅读

白宫与美联储的关键信号

admin

卖美国、买中国,阿里再点一把火

admin

提供其他重大案件线索 姜杰受贿 2.25 亿余元一审被判死缓

admin