DeepSeek新論文來(lái)了!聯(lián)手清華、北大,優(yōu)化智能體大模型推理!

「DeepSeek V4 來(lái)了論文!」這樣的消息是不是已經(jīng)聽(tīng)煩了?

我們也是論文。

不過(guò) DeepSeek V4 雖然遲遲未發(fā),但今天我們等來(lái)了其與清華、北大合作撰寫(xiě)的一篇新論文論文。

總結(jié)來(lái)說(shuō),這篇新論文介紹了一個(gè)名為「DualPath」的創(chuàng)新推理系統(tǒng),專門針對(duì)智能體工作負(fù)載下的大語(yǔ)言模型(LLM)推理性能進(jìn)行優(yōu)化論文。具體來(lái)講,通過(guò)引入「雙路徑 KV-Cache 加載」機(jī)制,解決了在預(yù)填充 - 解碼(PD)分離架構(gòu)下,KV-Cache 讀取負(fù)載不平衡的問(wèn)題。

該推理系統(tǒng)帶來(lái)了顯著效果:在離線推理場(chǎng)景中實(shí)現(xiàn)了 1.87 倍的吞吐量提升,在線服務(wù)場(chǎng)景下實(shí)現(xiàn)了 1.96 倍的服務(wù)吞吐量提升論文

論文標(biāo)題論文:DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

arXiv 地址論文

論文標(biāo)題論文:DualPath: Breaking the Storage Bandwidth Bottleneck in Agentic LLM Inference

arXiv 地址論文

我們知道,如今智能體已經(jīng)成為主流 AI 開(kāi)發(fā)范式論文。但是,智能體范式下出現(xiàn)了全新的瓶頸,即存儲(chǔ)帶寬。

在多輪互動(dòng)的智能體場(chǎng)景中,上下文信息會(huì)隨輪次迅速累積,導(dǎo)致其呈現(xiàn)出 「長(zhǎng)上下文、短追加」 的特征論文。研究指出,這類負(fù)載的 KV-Cache 命中率通常高于 95%。這意味著系統(tǒng)性能的決定性因素已不再是純粹的計(jì)算能力,而是從存儲(chǔ)中加載 KV-Cache 的效率。

展開(kāi)全文

DeepSeek新論文來(lái)了!聯(lián)手清華、北大,優(yōu)化智能體大模型推理!

在現(xiàn)有的預(yù)填充 - 解碼分離(PD-disaggregated)架構(gòu)中,所有的存儲(chǔ) I/O 壓力都集中在預(yù)填充引擎(PE)的存儲(chǔ)網(wǎng)卡上,而解碼引擎(DE)的存儲(chǔ)帶寬則被閑置論文。這種帶寬利用的極度不平衡,成為了限制系統(tǒng)吞吐量的核心障礙。

針對(duì)這一痛點(diǎn)論文,DualPath 重新設(shè)計(jì)了數(shù)據(jù)加載路徑,核心創(chuàng)新在于引入了存儲(chǔ)到解碼(Storage-to-Decode)路徑,包括以下兩個(gè)特征:

一方面是雙路并行論文。KV-Cache 不僅可以直接讀入預(yù)填充引擎,還可以先加載到解碼引擎,隨后通過(guò)高帶寬 RDMA 計(jì)算網(wǎng)絡(luò)高效傳輸至預(yù)填充引擎。

另一方面是帶寬資源池化:通過(guò)動(dòng)態(tài)分配兩條路徑的負(fù)載,DualPath 成功將集群中所有引擎的存儲(chǔ)網(wǎng)卡聚合為一個(gè) 全局容量池,徹底打破了單節(jié)點(diǎn) I/O 的限制論文

DeepSeek新論文來(lái)了!聯(lián)手清華、北大,優(yōu)化智能體大模型推理!

另外,為了確保大規(guī)模數(shù)據(jù)傳輸不干擾延遲極其敏感型的模型推理任務(wù),DualPath 還采用了以下兩項(xiàng)關(guān)鍵技術(shù):

一是以計(jì)算網(wǎng)卡(CNIC)為中心的流量管理:系統(tǒng)將所有 GPU 相關(guān)的流量(包括本地內(nèi)存拷貝)統(tǒng)一通過(guò)計(jì)算網(wǎng)卡進(jìn)行管理,同時(shí)利用網(wǎng)絡(luò)的服務(wù)質(zhì)量(QoS)機(jī)制,將推理通信設(shè)為高優(yōu)先級(jí),確保加載 KV-Cache 的流量?jī)H利用閑置帶寬,不影響延遲 SLO論文。

二是自適應(yīng)請(qǐng)求調(diào)度:調(diào)度器實(shí)時(shí)監(jiān)控各引擎的磁盤讀取隊(duì)列長(zhǎng)度和計(jì)算負(fù)載,動(dòng)態(tài)決定每個(gè)請(qǐng)求的最優(yōu)路徑論文。同時(shí),通過(guò)計(jì)算配額機(jī)制優(yōu)化引擎內(nèi)調(diào)度,最大限度減少 GPU 執(zhí)行過(guò)程中的氣泡。

研究團(tuán)隊(duì)在包含 1152 個(gè) GPU 的大規(guī)模生產(chǎn)集群上對(duì) DualPath 進(jìn)行了評(píng)估,并驗(yàn)證了離線與在線服務(wù)場(chǎng)景下吞吐量的顯著提升論文

接下來(lái)解析 DualPath 系統(tǒng)細(xì)節(jié)論文。

DualPath 系統(tǒng)概覽

為了打破 Prefill 側(cè)存儲(chǔ) I/O 的瓶頸,DeepSeek 提出了一種雙路徑加載架構(gòu),重新設(shè)計(jì)了在 Prefill–Decode 解耦(PD-disaggregated)推理架構(gòu)中 KV-Cache 的讀取方式論文。傳統(tǒng)做法是所有 KV-Cache 都從存儲(chǔ)直接讀入 Prefill 側(cè) GPU,導(dǎo)致 Prefill 側(cè)存儲(chǔ)網(wǎng)卡成為單點(diǎn)瓶頸。DualPath 則在此基礎(chǔ)上增加了一條新的加載路徑,從而緩解這一不平衡問(wèn)題。

DualPath 仍然建立在兩項(xiàng)已有技術(shù)之上論文

(1)P/D 解耦(PD Disaggregation)論文,將 prompt 處理與 decode 處理分離,以提高整體效率;

(2)Layerwise Prefill,通過(guò)按層加載 KV-Cache,避免了 LayerKV 和 PrefillOnly 指出的 Prefill 引擎上的 HBM 顯存瓶頸問(wèn)題,從而提升 GPU 利用率論文。

DualPath 整個(gè)系統(tǒng)由三部分組成論文

推理引擎(Inference Engines)論文。每個(gè)引擎管理一張 GPU。引擎分為兩類:用于執(zhí)行 prefill 的 Prefill Engine(PE),以及用于執(zhí)行 decode 的 Decode Engine(DE)。

流量管理器(Traffic Manager)論文。每個(gè)引擎內(nèi)部都包含一個(gè)流量管理器,負(fù)責(zé):(1)主機(jī)與設(shè)備之間的內(nèi)存拷貝(H2D 與 D2H);(2)PE 與 DE 之間的 KV-Cache 傳輸;(3)通過(guò)存儲(chǔ)網(wǎng)卡進(jìn)行 KV-Cache 的讀寫(xiě)操作。DeepSeek 采用以 CNIC 為中心的流量管理方案,以防止 KV-Cache 相關(guān)流量干擾模型推理過(guò)程中的通信。

請(qǐng)求調(diào)度器(Request Scheduler)論文。一個(gè)中心化調(diào)度器,負(fù)責(zé)接收客戶端請(qǐng)求并將其分配到不同引擎。同時(shí),它還負(fù)責(zé)在兩條加載路徑之間動(dòng)態(tài)分配數(shù)據(jù)流量(如圖 4 所示)。

推理引擎(Inference Engines)論文。每個(gè)引擎管理一張 GPU。引擎分為兩類:用于執(zhí)行 prefill 的 Prefill Engine(PE),以及用于執(zhí)行 decode 的 Decode Engine(DE)。

流量管理器(Traffic Manager)論文。每個(gè)引擎內(nèi)部都包含一個(gè)流量管理器,負(fù)責(zé):(1)主機(jī)與設(shè)備之間的內(nèi)存拷貝(H2D 與 D2H);(2)PE 與 DE 之間的 KV-Cache 傳輸;(3)通過(guò)存儲(chǔ)網(wǎng)卡進(jìn)行 KV-Cache 的讀寫(xiě)操作。DeepSeek 采用以 CNIC 為中心的流量管理方案,以防止 KV-Cache 相關(guān)流量干擾模型推理過(guò)程中的通信。

請(qǐng)求調(diào)度器(Request Scheduler)論文。一個(gè)中心化調(diào)度器,負(fù)責(zé)接收客戶端請(qǐng)求并將其分配到不同引擎。同時(shí),它還負(fù)責(zé)在兩條加載路徑之間動(dòng)態(tài)分配數(shù)據(jù)流量(如圖 4 所示)。

雙路徑加載(Dual-Path Loading)

傳統(tǒng)系統(tǒng)中,KV-Cache 只能從存儲(chǔ)直接讀入 Prefill 引擎,因此所有存儲(chǔ)帶寬壓力都集中在 Prefill 側(cè),形成單點(diǎn)瓶頸論文。DualPath 在此基礎(chǔ)上增加了一條新的加載路徑:KV-Cache 可以先從存儲(chǔ)讀入 Decode 引擎,再通過(guò)高速 RDMA 計(jì)算網(wǎng)絡(luò)傳回 Prefill 引擎。這樣,系統(tǒng)就可以同時(shí)利用 Prefill 和 Decode 兩側(cè)的存儲(chǔ)網(wǎng)卡帶寬,而不是只依賴 Prefill 一側(cè),從而消除帶寬不均衡問(wèn)題。

為了實(shí)現(xiàn)雙路徑加載,DualPath 在每個(gè) Prefill Engine(PE)和 Decode Engine(DE)上分配少量 DRAM 作為緩沖區(qū),分別稱為 PE buffer 和 DE buffer論文。

Prefill 側(cè)讀取路徑論文。首先,將命中 token 的 KV-Cache 從持久化存儲(chǔ)中讀取到 PE buffer(如圖 4a 中標(biāo)注 1 和 2)。在某一注意力層開(kāi)始計(jì)算之前,該層對(duì)應(yīng)的 KV-Cache 會(huì)從 PE buffer 傳輸?shù)?PE 的 HBM(3 和 4),用于計(jì)算未命中(cache-miss)的 prompt token 的 KV-Cache。隨后,命中和未命中 token 的所有 KV-Cache 都會(huì)被傳輸?shù)?DE buffer,以組成完整的 prompt KV-Cache( 5–7)。步驟 3–7 的流程會(huì)重復(fù) n_layer 次。在 prefill 前向計(jì)算過(guò)程中,數(shù)據(jù)傳輸與計(jì)算是重疊執(zhí)行的。

預(yù)填充 DE 讀取路徑論文。首先,命中 token 的 KV-Caches 會(huì)被讀取到 DE 緩沖區(qū)中(如圖 4b 中的標(biāo)簽 1 和 2 )。在 PE 預(yù)填充期間,相應(yīng)層的 KV-Cache 會(huì)從 DE 緩沖區(qū)中讀取,這同樣與計(jì)算過(guò)程相重疊( 3-5)。此過(guò)程會(huì)重復(fù) n_layer 次。當(dāng)每一層的計(jì)算完成后,只有缺失 token 的 KV-Caches 會(huì)被傳輸?shù)?DE 緩沖區(qū),并與現(xiàn)有的命中 token KV-Cache 進(jìn)行合并。

解碼階段論文。在 DE 緩沖區(qū)接收到完整的提示 KV-Cache(包括通過(guò) PE 讀取路徑加載的 KV-Cache 以及新追加 token 的 KV-Cache)后,解碼階段正式開(kāi)始。DE 首先分配 HBM 并執(zhí)行主機(jī)到設(shè)備(H2D)傳輸(如圖 4a 中的標(biāo)簽 8 和 9;圖 4b 中的標(biāo)簽 6 和 7 ),隨后在開(kāi)始解碼前釋放 CPU 內(nèi)存。

DE 緩沖區(qū)的設(shè)計(jì)雖然給 DRAM 和 CNIC 帶來(lái)了額外的帶寬壓力(因?yàn)樵黾恿艘淮晤~外的 H2D 拷貝),這本可以通過(guò) GPU Direct RDMA 直接繞過(guò)來(lái)避免論文。然而,由于在此類智能體場(chǎng)景下生成的長(zhǎng)度通常較短,首 token 延遲在整個(gè)端到端請(qǐng)求時(shí)間中占據(jù)了不可忽視的比例。引入 DE 緩沖區(qū)有助于減少 GPU 內(nèi)存占用。在解碼過(guò)程中,每當(dāng)累積一個(gè)完整的 token 塊(例如 64 個(gè) token)時(shí),系統(tǒng)會(huì)立即將其持久化到磁盤中。

不同的數(shù)據(jù)塊布局論文。DualPath 采用了兩種不同的數(shù)據(jù)塊布局:完整塊和層級(jí)塊,它們分別包含所有層的信息和單個(gè)層的信息。對(duì)于所有與存儲(chǔ)系統(tǒng)的交互,均采用完整塊。在 PE 讀取的情況下,KV-Cache 加載到 PE HBM 以及傳輸?shù)?DE 緩沖區(qū)的過(guò)程是以層級(jí)流式方式進(jìn)行的,兩者都使用層級(jí)塊。同樣地,對(duì)于 DE 讀取路徑,從 DE 緩沖區(qū)到 PE HBM 的傳輸也使用層級(jí)塊。

無(wú)瓶頸(Bottleneck-Free)分析

比例(預(yù)填充 / 解碼比例)下證明了,該系統(tǒng)可以完全打滿所有存儲(chǔ)網(wǎng)卡(NIC)的帶寬,且不會(huì)引入計(jì)算網(wǎng)卡或 DRAM 的瓶頸論文

假設(shè) PCIe 拓?fù)渑渲昧己茫疵恳粚?duì) GPU - NIC 都位于同一個(gè) PCIe 交換機(jī)下)、任務(wù)調(diào)度負(fù)載均衡、計(jì)算網(wǎng)絡(luò)無(wú)擁塞,且存儲(chǔ)讀取帶寬得到了充分利用論文

首先是 PE CNIC 帶寬分析論文。對(duì)于 PE CNIC,由于存在回環(huán)流量(即不經(jīng)過(guò)交換機(jī)的 H2D 和 D2H 拷貝),因此無(wú)論讀或?qū)懖僮?,PCIe 側(cè)的總流量始終大于或等于交換機(jī)方向的流量。因此,只需要計(jì)算 PCIe 側(cè)的壓力。讀取操作包括 PE 路徑 (3) 和 (5),其在所有配對(duì)上的總流量為:

其次是 DRAM 壓力分析論文。DRAM 是半雙工的,因此將讀取和寫(xiě)入壓力相加。對(duì)于 PE 內(nèi)存,其壓力為 2sB,這通常不會(huì)超過(guò)內(nèi)存帶寬。對(duì)于 DE 內(nèi)存,遵循上述類似的分析,可以得出其壓力為 (3 + 2P / D) Bs。要求 DE 內(nèi)存壓力小于或等于 M,得到如下:

更多公式請(qǐng)參考原論文論文。

實(shí)際挑戰(zhàn)

雙路徑架構(gòu)從根本上重新定向了數(shù)據(jù)移動(dòng)方式:KV-Cache 既可以直接從存儲(chǔ)加載到預(yù)填充引擎,也可以通過(guò)解碼引擎間接加載 論文。通過(guò)這種方式,系統(tǒng)聚合了所有引擎的存儲(chǔ)帶寬,從而打破了預(yù)填充側(cè)的 I/O 瓶頸 。然而,在實(shí)際系統(tǒng)中實(shí)現(xiàn)這一高層設(shè)計(jì)引入了三個(gè)相互關(guān)聯(lián)的挑戰(zhàn) 。

一是細(xì)粒度數(shù)據(jù)傳輸論文。層級(jí)執(zhí)行范式雖然對(duì)于克服 HBM 容量限制至關(guān)重要,但它會(huì)將 KV-Cache 碎片化為海量的細(xì)粒度數(shù)據(jù)塊。為了實(shí)現(xiàn)吞吐量增益,在存儲(chǔ)、主機(jī) DRAM 和 GPU HBM 之間傳輸這些海量的細(xì)粒度數(shù)據(jù)塊時(shí),必須確保產(chǎn)生極低的開(kāi)銷,并與計(jì)算任務(wù)無(wú)縫重疊。

二是流量隔離論文。DualPath 中復(fù)雜的數(shù)據(jù)路徑在計(jì)算網(wǎng)絡(luò)和 PCIe 鏈路上都引入了額外的 KV-Cache 傳輸流量。一個(gè)主要的顧慮是,這些流量可能會(huì)干擾模型執(zhí)行中至關(guān)重要的、對(duì)延遲敏感的現(xiàn)有集合通信操作 —— 例如專家并行中的 AllToAll,以及張量 / 上下文并行中的 ReduceScatter 和 AllGather。由于這些集合通信直接決定了端到端的推理延遲,因此在不降低模型推理性能的前提下利用空閑 I/O 帶寬是一個(gè)關(guān)鍵挑戰(zhàn)。

三是動(dòng)態(tài)負(fù)載均衡論文。由于采用了兩種不同的 KV-Cache 加載路徑,系統(tǒng)必須及時(shí)決定每個(gè)請(qǐng)求使用哪條路徑。過(guò)于簡(jiǎn)單的策略可能會(huì)導(dǎo)致某條路徑過(guò)載,從而重新產(chǎn)生原始瓶頸。流量調(diào)度器必須實(shí)時(shí)平衡多個(gè)因素:存儲(chǔ)網(wǎng)卡隊(duì)列長(zhǎng)度、GPU 上的計(jì)算負(fù)載以及請(qǐng)求的工作負(fù)載特性。

評(píng)估結(jié)果

在評(píng)估部分,論文核心任務(wù)只有一個(gè):證明 DualPath 在真實(shí) agent 工作負(fù)載下,確實(shí)能解決存儲(chǔ)帶寬瓶頸,并帶來(lái)穩(wěn)定、可擴(kuò)展的性能提升論文

論文在自研推理框架上實(shí)現(xiàn) DualPath,核心改動(dòng)約 5000 行代碼論文。底層使用 FlashMLA、DeepGEMM、DeepEP 等高性能算子,存儲(chǔ)后端采用 3FS 分布式存儲(chǔ)。

評(píng)測(cè)模型包括:DS 660B(MoE + 稀疏注意力)、DS 27B(縮小版實(shí)驗(yàn)?zāi)P停?,Qwen 32B(稠密模型)論文

離線批量推理

這一部分模擬 RL rollout 場(chǎng)景:n 個(gè) agent 同時(shí)啟動(dòng),測(cè)整體完成時(shí)間(JCT)論文。

不同 Agent 批量規(guī)模與最大 Agent 長(zhǎng)度(MAL)的影響論文。 隨著批量規(guī)模增大以及 MAL 變長(zhǎng),DualPath 的優(yōu)勢(shì)更加明顯。圖 7 展示了在不同 batch size 與 MAL 組合下的 JCT 表現(xiàn)。SGL (MC) 出現(xiàn)錯(cuò)誤,未能完成部分大規(guī)模配置(圖中 token 為 N/A)。在 DS 660B 模型上,DualPath 相比 Basic 最高實(shí)現(xiàn)了 1.87× 的加速,并展現(xiàn)出接近 Oracle 的性能,這表明 KV-cache 的 I/O 開(kāi)銷基本被消除。在 DS 27B 上,DualPath 相比 Basic 最高提升 1.78×,但由于 1P1D 架構(gòu)下存儲(chǔ)帶寬受限,其性能仍比 Oracle 慢 1.09–1.85×(見(jiàn)圖 8)。對(duì)于 Qwen 32B,趨勢(shì)與 DS 27B 類似。

DeepSeek新論文來(lái)了!聯(lián)手清華、北大,優(yōu)化智能體大模型推理!

不同追加長(zhǎng)度(Append Length)與生成長(zhǎng)度(Generation Length)的影響論文。如圖 9 所示,隨著追加長(zhǎng)度增加,Basic 的性能逐漸接近 DualPath 和 Oracle,而 DualPath 與 Oracle 的性能變化較小,這表明系統(tǒng)瓶頸始終主要來(lái)自 GPU 計(jì)算壓力。與 Basic 相比,DualPath 在不同追加規(guī)模下實(shí)現(xiàn)了 1.82–1.99× 的加速。生成長(zhǎng)度擴(kuò)展時(shí)的趨勢(shì)類似。

DeepSeek新論文來(lái)了!聯(lián)手清華、北大,優(yōu)化智能體大模型推理!

Online Serving(在線推理服務(wù))

在線服務(wù)實(shí)驗(yàn)部分則模擬真實(shí)生產(chǎn)環(huán)境下 agent 按泊松分布持續(xù)到達(dá)的場(chǎng)景,設(shè)置 TTFT ≤ 4 秒、TPOT ≤ 50 毫秒為服務(wù)等級(jí)目標(biāo)論文。結(jié)果表明,DualPath 顯著提高系統(tǒng)可承載的到達(dá)率上限:在 DS 27B 上提升 1.67 倍,在 DS 660B 上提升 2.25 倍。

與此同時(shí),DualPath 的 TTST 與 Basic 基本持平,TPOT 也未引入額外解碼開(kāi)銷,說(shuō)明其優(yōu)化集中在 KV-Cache 讀取與排隊(duì)階段,而不會(huì)影響解碼階段效率論文。更重要的是,在負(fù)載升高時(shí),DualPath 能保持 TTFT 結(jié)構(gòu)穩(wěn)定,而 Basic 的排隊(duì)時(shí)間會(huì)因存儲(chǔ)帶寬不足迅速上升,成為延遲惡化的主要來(lái)源。

DeepSeek新論文來(lái)了!聯(lián)手清華、北大,優(yōu)化智能體大模型推理!

本站內(nèi)容來(lái)自用戶投稿,如果侵犯了您的權(quán)利,請(qǐng)與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E5%9F%B7(zh%C3%AD)%E6%B3%95%E5%B1%80.html

?? 簡(jiǎn) /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩