DeepSeek 新论文剧透 V4 新框架:用闲置网卡加速智能体推理性能,打破 PD 分离瓶颈

天涯百科 网络资讯 1

DeepSeek 这小子最精了,当全世界都在盯着他的 GitHub 仓库,等待 V4 时 ——

他和北大、清华在 ArXiv 悄咪咪地上了一篇论文,发布了一个全新的针对智能体的推理框架:DualPath。

而且就跟前几天曝出的算力话题相关。

DualPath 的核心在于解决 Agent 长文本推理场景下的 I/O 瓶颈,通过优化从外部存储加载 KV-Cache 的速度,确保计算资源不被存储读取拖累。

它改变了传统的存储至预填充引擎(Storage-to-Prefill)单路径加载模式,引入了存储至解码引擎(Storage-to-Decode)的第二条路径。

通过利用解码引擎闲置的存储网卡(SNIC)带宽读取缓存,并配合高速计算网络(RDMA)将其传输至预填充引擎,DualPath 实现了集群存储带宽的全局池化与动态负载均衡。

在 660B 规模的生产级模型的实测中,DualPath 表现惊人:

离线推理吞吐量提高了 1.87 倍,在线服务吞吐量平均提升 1.96 倍。

在高负载下,首字延迟(TTFT)大幅优化,而 Token 间的生成速度(TPOT)几乎不受任何干扰。

接下来,我们一起来看。

双路径加载 (Dual-Path Loading)

总的来说,DualPath 是一个专门为智能体系统设计的推理框架,它的核心洞见是 ——

KV-Cache 的加载不必以预填充为中心。

在以往的理解中,谁负责计算谁就去搬数据。但 DualPath 认为,缓存可以先加载到解码引擎中,再通过高性能 RDMA 网络传输至预填充引擎。

通过在两条路径间动态选择,DualPath 重新分配了网络负载,缓解了预填充侧的带宽压力。

那么,为什么要费这么大劲去“绕路”?

之所以这样做,是因为在当前的智能体应用中,对话轮数多且上下文长,KV-Cache 命中率通常高达 95% 以上。

这意味着,每一轮对话都要搬运海量的“旧记忆”,推理性能的瓶颈已经从“计算”转移到了“搬运”上。

在现有的预填充-解码分离(PD-disaggregated)架构中,所有的加载任务都拥挤在预填充引擎(PE)的存储网卡上,导致带宽瞬间饱和;

与此同时,解码引擎(DE)的存储网卡却在闲置,造成了严重的资源错配。

更进一步的,当前 GPU 算力的增长远快于网络带宽和 HBM 容量的增长,也加剧了 I/O 限制。

正如英伟达首席科学家 Bill Dally、谷歌架构师 Jeff Dean 等大佬反复强调的:计算是免费的,但数据移动是昂贵的。

针对这些问题,DualPath 构建了创新的双路径模型:

  • 路径 A(传统):存储 → PE,缓存直接读入预填充引擎。

  • 路径 B(新增):存储 → DE → PE,缓存先读入解码引擎的缓冲池,再通过 RDMA 传输给预填充引擎。

在架构组成上:

  • 推理引擎:每个引擎管理一块 GPU,严格区分为预填充(PE)和解码(DE)。

  • 流量管理器:负责 H2D/D2H 拷贝、引擎间传输以及 SNIC 存储读写。

  • 中央调度器:担任“大脑”角色,实时决策每一条请求该走哪条路,从而实现全局带宽的最大化利用。

核心技术方案:存储至解码路径

如上所述,DualPath 推理系统的核心在于打破了传统的“存储至预填充”单路径模式,创新性地引入了“存储至解码”路径。

该设计允许 KV-Cache 先加载至解码引擎(DE),再通过高带宽计算网络(RDMA)无损传输给预填充引擎(PE)。

通过在两条路径间动态分配负载,系统将集群中原本闲置的解码侧存储网卡(SNIC)带宽彻底释放,构建起一个全局可调度的存储 I/O 资源池。

具体来说,为了支持层级流式处理,DualPath 在 PE 和 DE 上均分配了少量 DRAM 缓冲区(PE / DE Buffer),并针对不同阶段设计了精细的数据流:

  • PE 读取路径:命中 Token 的 KV-Cache 从存储读入 PE 缓冲区。在每层计算前,该层缓存传输至 PE HBM,与计算过程重叠执行。计算完成后,全量 KV-Cache 传回 DE 缓冲区以形成完整上下文。

  • DE 读取路径: KV-Cache 直接进入 DE 缓冲区。在 PE 预填充期间,对应层的缓存跨节点传输至 PE HBM(计算重叠)。计算结束后,PE 仅需传回新生成的 KV-Cache 片段与 DE 原有缓存合并。

  • 解码与持久化: DE 缓冲区接收完整 KV-Cache 后启动解码,执行 H2D 拷贝并随后释放 CPU 内存。虽然引入缓冲增加了 DRAM 压力,但能显著降低 GPU 显存占用并优化首字延迟(TTFT)。生成过程中,每累积满一个 Block(如 64 Token)即触发异步持久化。

但就像前面提到的,“绕路”加载会带来新问题:比如搬运缓存的流量撞上了模型计算的通信,怎么办?

对此,DualPath 给出了两套优化方案:

首先是以计算网卡(CNIC)为中心的流量管理,强制所有流量通过配对的 CNIC 走 GPUDirect RDMA 路径。

在 InfiniBand 或 RoCE 网络中,利用虚拟层(VL / TC)技术,将推理通信设为“最高优先级”并预留 99% 带宽,让缓存搬运只能在间隙中“蹭”带宽,确保互不干扰。

其次是自适应请求调度器:调度器会盯着每个节点的磁盘队列长度和 Token 数。系统会优先将任务分配给 I/O 压力较小且计算负载较轻的节点,从根本上避免单侧网卡或单点计算资源的拥塞。

在实验阶段,DualPath 在 DeepSeek-V3、Qwen 等模型上进行了测试,场景覆盖了离线 Rollout 和在线服务。

如开头所说,在离线推理中,DualPath 将端到端吞吐量提高了高达 1.87 倍,在线服务吞吐量平均提升 1.96 倍,显著降低了首字延迟(TTFT),且保持了极其稳定的 Token 间延迟(TBT)。

总的来说,DualPath 证明了通过重新思考数据加载路径可以有效突破当前大模型推理的 I/O 墙。

它成功利用了解码引擎原本被浪费的 I/O 带宽,配合自适应调度和严谨的流量隔离机制,在不增加硬件成本的前提下,大幅提升了智能体 LLM 推理系统的效率。

One more thing

这篇论文的第一作者吴永彤,是北京大学的博士生,师从金鑫教授。

他的研究方向聚焦于系统软件与大模型基础设施(LLM Infrastructure),尤其是推理系统的工程优化与规模化部署。

他目前在 DeepSeek 系统组,参与下一代模型的推理基础设施建设,负责大规模软件系统在多硬件平台上的性能优化。

此前,他还曾在腾讯、华盛顿大学,微软亚研院等机构实习。

参考链接

  • [1]https://arxiv.org/pdf/2602.21548

  • [2]https://jokerwyt.github.io/

本文来自微信公众号:量子位(ID:QbitAI),作者:henry,原标题《DeepSeek 新论文剧透 V4 新框架!用闲置网卡加速智能体推理性能,打破 PD 分离瓶颈》