【旭才科技】 近日,人工智能公司 DeepSeek 在海外社交平台上发布了一份技术论文报告,聚焦于原生稀疏注意力 (NSA) 机制的研究。该论文引起了业界的广泛关注,不仅因为其研究内容的创新性,更因为论文的署名中包含了意外的人物。
论文的第一作者袁景阳是在 DeepSeek 实习期间完成了这项研究,这一成果的取得对他个人以及 DeepSeek 来说都是一大喜讯。令人感到惊喜的是,DeepSeek 的创始人梁文锋也作为著作者之一出现在论文署名中,排名倒数第二,这一举动在业内引起了不小的讨论。
论文摘要指出,DeepSeek 团队认识到长上下文建模对于下一代大型语言模型的重要性。然而,现有的标准注意力机制随着序列长度的增加,其高复杂度成为了性能提升的瓶颈。NSA 机制的提出,正是为了解决这一问题。
NSA 通过高效处理长序列的能力,使模型能够直接处理如整本书籍、代码仓库或长轮对话等大规模数据,极大地扩展了大型语言模型在文档分析、代码生成、复杂推理等领域的应用范围。
此外,NSA 针对现代硬件的优化设计不仅提高了推理速度,还降低了预训练的成本,同时保持了模型的性能。在通用基准测试、长文本任务和基于指令的推理中,NSA 的表现均能达到或超越全注意力模型。
DeepSeek 团队认为,稀疏注意力机制为提高模型效率同时保持能力提供了一条有希望的途径。
根据公开资料,NSA 是一种专为长文本训练与推理设计的稀疏注意力机制,它通过动态分层稀疏策略等先进技术,对传统 AI 模型的训练和推理过程进行了显著优化。