首页 - 科技 > DeepSeek推出NSA：快速进行长上下文训练和推理！

DeepSeek推出NSA：快速进行长上下文训练和推理！

发布于：2025-02-18 作者：凹凸曼阅读：106

据报道，DeepSeek团队在其新发表的论文中介绍了NSA（Native Sparse Attention），这是一种创新的稀疏注意力机制，该机制专为与现代硬件高度协同且支持本机训练而设计，旨在实现超高速的长上下文训练与推理过程。

NSA通过一系列针对现代硬件特性的优化设计，不仅显著提升了推理速度，还有效降低了预训练成本，同时确保了模型性能的丝毫不减。

DeepSeek推出NSA：快速进行长上下文训练和推理

据官方介绍，NSA在通用基准测试、长上下文任务以及基于指令的推理中表现优异，与完全注意力模型相比表现相当甚至更佳。

据悉，DeepSeek设计了一种分层的稀疏策略，将注意力分为三个分支：压缩（compression）、选择（selection）和滑动窗口（sliding window），以便同时捕捉全局上下文和局部精细信息。

NSA不仅在算法上实现了稀疏注意力的高效建模，还通过硬件对齐的设计，优化了内存访问和计算调度，使得模型在处理长文本时能够大幅减少计算延迟和资源消耗。

论文地址：https://arxiv.org/pdf/2502.11089v1

DeepSeek推出NSA：快速进行长上下文训练和推理