DeepSeek推出NSA:超快速长上下文训练与推理的新利器

DeepSeek推出NSA:超快速长上下文训练与推理的新利器

今日,人工智能领域的创新企业DeepSeek宣布正式推出NSA(Native Sparse Attention)机制。这一机制专为超快速长上下文训练与推理而设计,旨在通过硬件对齐和原生可训练的稀疏注意力机制,为用户带来前所未有的体验。

NSA的核心组件包括动态分层稀疏策略、粗粒度token压缩以及细粒度token选择。这些组件共同协作,使得NSA能够在优化现代硬件设计的同时,实现推理加速和预训练成本的降低,而且这一切都是在不牺牲性能的前提下完成的。

DeepSeek官方表示,NSA机制在通用基准、长上下文任务和基于指令的推理上,其表现与全注意力模型相当甚至更加优秀。这意味着,用户在享受更快推理速度和更低成本的同时,也能获得与顶尖模型相媲美的性能表现。

原创文章,作者:AI,如若转载,请注明出处:https://www.kejixun.com/article/706746.html

AI的头像AI认证作者

相关推荐

发表回复

登录后才能评论