2019精品手机国产品在线,国产精品一二区,国产成人h在线观看网站站,日本亚洲欧美国产日韩a??y

新京報(bào)貝殼財(cái)經(jīng)記者羅亦丹實(shí)習(xí)生郭雯華編輯岳彩周校對付春愔

1月12日晚間，DeepSeek發(fā)布梁文鋒署名的新論文，主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》（直譯為基于可擴(kuò)展查找的條件記憶：大語言模型稀疏性的新維度），這也是2026開年至今，DeepSeek團(tuán)隊(duì)的第二篇重磅論文論文。

此前，在1月1日發(fā)布的論文中，DeepSeek提出一種名為“mHC”（直譯為“流形約束超連接”）的框架，可以有效解決大模型訓(xùn)練中的穩(wěn)定性問題論文。而在本次發(fā)布的論文中，DeepSeek聯(lián)合北京大學(xué)提出了“條件記憶”這一概念，直指當(dāng)前大語言模型基礎(chǔ)架構(gòu)Transformer在知識(shí)檢索方面存在的低效和算力消耗問題。

在這篇論文里，DeepSeek通過創(chuàng)新的Engram（直譯為：記憶痕跡）架構(gòu)為模型規(guī)模化擴(kuò)展提供了新的技術(shù)路徑，若以簡單的比喻來理解，就是DeepSeek設(shè)計(jì)了一種新架構(gòu)，將大模型的“條件記憶”和“計(jì)算”分開，最終達(dá)到了降低錯(cuò)誤、節(jié)省算力的目的論文。

▲預(yù)印本網(wǎng)站上DeepSeek的論文頁面截圖，紅框?yàn)榱何匿h名字論文。

大模型“痛點(diǎn)”：簡單問題需要復(fù)雜推理論文，容易“遺忘”

許多AI大模型用戶均曾在使用過程中發(fā)現(xiàn)過一個(gè)現(xiàn)象：AI會(huì)偶爾“忘記”自己曾經(jīng)說過的話論文。對于這一問題，有AI聊天重度用戶曾對記者表示，可以通過再次“提醒”的方式來讓AI重復(fù)記起，ChatGPT等應(yīng)用也對此進(jìn)行過設(shè)置，讓用戶可以保存一些較為重要的信息到“長期記憶”中。

然而，這一切只能“治標(biāo)”不能“治本”論文。究其原因，根據(jù)美國約翰斯·霍普金斯大學(xué)和中國人民大學(xué)的研究團(tuán)隊(duì)2025年3月發(fā)布的論文《大型語言模型不具備類人工作記憶》（LLMs Do Not Have Human-Like Working Memory），大語言模型所依賴的“上下文窗口”與工作記憶存在本質(zhì)區(qū)別。

根據(jù)研究人員測試，模型在處理超過5輪的多步驟邏輯推理任務(wù)時(shí)，會(huì)出現(xiàn)關(guān)鍵信息丟失的現(xiàn)象，在長文本生成場景下，前文設(shè)定的人物關(guān)系、情節(jié)線索極易發(fā)生偏差論文。

展開全文

究其原因，在多輪對話中，早期輸入的關(guān)鍵信息會(huì)隨著對話輪次增加而逐漸衰減，最終被新信息覆蓋論文。這種 “答后忘前”的現(xiàn)象，本質(zhì)是模型的短時(shí)記憶無法有效轉(zhuǎn)化為長期可用的知識(shí)。另一方面，密集型注意力計(jì)算模式下，記憶存儲(chǔ)與邏輯推理共享算力資源，二者存在天然的資源競爭關(guān)系 —— 模型難以同時(shí)兼顧 “記住更多信息” 與 “精準(zhǔn)完成推理”。

這一背景下，DeepSeek則保持了一貫的“省錢”作風(fēng)，看到了這之中存在的算力消耗問題論文。梁文鋒署名的新論文表示，語言建模本質(zhì)上包含兩類子任務(wù)：一類是組合式推理，需要依賴深層、動(dòng)態(tài)計(jì)算完成；另一類是知識(shí)檢索，面向命名實(shí)體等相對靜態(tài)的內(nèi)容，理論上可以通過簡單查找更高效地處理。然而，現(xiàn)有Transformer架構(gòu)缺乏原生的查找組件，遇到這類靜態(tài)信息時(shí)往往仍要反復(fù)調(diào)用深層網(wǎng)絡(luò)進(jìn)行重建，從而加劇算力浪費(fèi)并推高推理成本。

DeepSeek在論文中指出，當(dāng)前主流模型在內(nèi)部運(yùn)行方式上仍存在明顯低效論文。大量固定知識(shí)和常見語言模式并不需要復(fù)雜推理，但模型在推理時(shí)往往仍要通過多層計(jì)算重新構(gòu)建相關(guān)信息，導(dǎo)致算力被大量消耗在記憶相關(guān)操作上。在長文本和知識(shí)密集型任務(wù)中，這一問題更為突出，重復(fù)靜態(tài)信息的重建會(huì)增加額外的推理開銷并拉長推理鏈路。

首創(chuàng)MoE+Engram雙稀疏軸架構(gòu)論文，實(shí)現(xiàn)“推理+檢索”分工協(xié)作

那么論文，如何解決上述問題呢？

根據(jù)DeepSeek的論文，研究人員首次將條件記憶（Conditional Memory）作為混合專家模型（MoE）條件計(jì)算的互補(bǔ)維度，提出計(jì)算與記憶雙稀疏軸的設(shè)計(jì)思路，這也是此次研究的核心創(chuàng)新點(diǎn)論文。

所謂“條件記憶”，是指模型能夠基于輸入中的局部上下文模式，以常數(shù)時(shí)間從大規(guī)模參數(shù)化記憶中檢索并融合靜態(tài)知識(shí)表示，從而避免在推理過程中反復(fù)通過深層計(jì)算重建高頻、模板化信息，類似于人類在面對熟悉知識(shí)時(shí)直接調(diào)用既有記憶，而非重新推導(dǎo)論文。

▲Engram架構(gòu)示意圖來源論文：DeepSeek論文截圖

具體而言，條件記憶通過Engram模塊（記憶痕跡）實(shí)現(xiàn)靜態(tài)知識(shí)存儲(chǔ)與動(dòng)態(tài)計(jì)算的分離，達(dá)成靜態(tài)模式的常數(shù)時(shí)間O(1)查找論文。其核心邏輯是為語言建模的兩類子任務(wù)進(jìn)行分工：MoE專注處理需要深層思考的組合式推理任務(wù)，Engram則依托條件記憶機(jī)制負(fù)責(zé)靜態(tài)知識(shí)的快速檢索，從架構(gòu)上優(yōu)化了算力資源分配，改變了傳統(tǒng)模型用計(jì)算模擬記憶的低效模式。當(dāng)大約20%至25%的稀疏參數(shù)預(yù)算分配給Engram，剩余部分留給MoE時(shí)（75% -80%），模型性能達(dá)到最佳。

這種稀疏性設(shè)計(jì)帶來兩大優(yōu)勢：一是大幅降低算力消耗，靜默狀態(tài)的記憶資源不占用計(jì)算資源，提升模型運(yùn)行效率；二是拓展記憶容量，稀疏存儲(chǔ)模式可支持更大規(guī)模的知識(shí)存入，突破傳統(tǒng)注意力窗口的物理限制論文。

論文給出了這一新方案在準(zhǔn)確性上所得到的提升：在長上下文檢索方面，研究人員采用業(yè)內(nèi)公認(rèn)的兩個(gè)長上下文評測基準(zhǔn)論文。實(shí)驗(yàn)結(jié)果顯示，在32k上下文長度下，Engram-27B 在多項(xiàng) Needle-in-a-Haystack（NIAH）任務(wù)中顯著優(yōu)于MoE基線模型，Multi-Query NIAH的準(zhǔn)確率從 84.2%提升至97.0%，Variable Tracking從77.0%提升至89.0%。

目前，該研究的代碼已開源，DeepSeek團(tuán)隊(duì)在論文最后表示，“我們認(rèn)為條件記憶函數(shù)是下一代稀疏模型中不可或缺的建?；?strong>論文?！边@一表述的背后，是行業(yè)對大模型技術(shù)演進(jìn)方向的共識(shí)——當(dāng)參數(shù)競賽進(jìn)入瓶頸期，稀疏性設(shè)計(jì)將成為提升模型效率與能力的核心路徑，而條件記憶或許可以成為稀疏模型在記憶領(lǐng)域的關(guān)鍵突破。

在業(yè)界猜測DeepSeek下一代模型將于春節(jié)前發(fā)布的背景下，這篇論文的出現(xiàn)頗具風(fēng)向標(biāo)意義，論文提出的技術(shù)范式也為大模型的底層架構(gòu)創(chuàng)新提供了新的思路論文。

解析梁文鋒最新論文

海之嵐財(cái)稅公司

熱門標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航