解析梁文鋒最新論文

新京報貝殼財經(jīng)記者 羅亦丹 實習生 郭雯華 編輯 岳彩周 校對 付春愔

1月12日晚間,DeepSeek發(fā)布梁文鋒署名的新論文,主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直譯為基于可擴展查找的條件記憶:大語言模型稀疏性的新維度),這也是2026開年至今,DeepSeek團隊的第二篇重磅論文論文。

此前,在1月1日發(fā)布的論文中,DeepSeek提出一種名為“mHC”(直譯為“流形約束超連接”)的框架,可以有效解決大模型訓練中的穩(wěn)定性問題論文。而在本次發(fā)布的論文中,DeepSeek聯(lián)合北京大學提出了“條件記憶”這一概念,直指當前大語言模型基礎(chǔ)架構(gòu)Transformer在知識檢索方面存在的低效和算力消耗問題。

在這篇論文里,DeepSeek通過創(chuàng)新的Engram(直譯為:記憶痕跡)架構(gòu)為模型規(guī)?;瘮U展提供了新的技術(shù)路徑,若以簡單的比喻來理解,就是DeepSeek設(shè)計了一種新架構(gòu),將大模型的“條件記憶”和“計算”分開,最終達到了降低錯誤、節(jié)省算力的目的論文。

▲預(yù)印本網(wǎng)站上DeepSeek的論文頁面截圖,紅框為梁文鋒名字論文。

大模型“痛點”:簡單問題需要復(fù)雜推理論文,容易“遺忘”

許多AI大模型用戶均曾在使用過程中發(fā)現(xiàn)過一個現(xiàn)象:AI會偶爾“忘記”自己曾經(jīng)說過的話論文。對于這一問題,有AI聊天重度用戶曾對記者表示,可以通過再次“提醒”的方式來讓AI重復(fù)記起,ChatGPT等應(yīng)用也對此進行過設(shè)置,讓用戶可以保存一些較為重要的信息到“長期記憶”中。

然而,這一切只能“治標”不能“治本”論文。究其原因,根據(jù)美國約翰斯·霍普金斯大學和中國人民大學的研究團隊2025年3月發(fā)布的論文《大型語言模型不具備類人工作記憶》(LLMs Do Not Have Human-Like Working Memory),大語言模型所依賴的“上下文窗口”與工作記憶存在本質(zhì)區(qū)別。

根據(jù)研究人員測試,模型在處理超過5輪的多步驟邏輯推理任務(wù)時,會出現(xiàn)關(guān)鍵信息丟失的現(xiàn)象,在長文本生成場景下,前文設(shè)定的人物關(guān)系、情節(jié)線索極易發(fā)生偏差論文

展開全文

究其原因,在多輪對話中,早期輸入的關(guān)鍵信息會隨著對話輪次增加而逐漸衰減,最終被新信息覆蓋論文。這種 “答后忘前”的現(xiàn)象,本質(zhì)是模型的短時記憶無法有效轉(zhuǎn)化為長期可用的知識。另一方面,密集型注意力計算模式下,記憶存儲與邏輯推理共享算力資源,二者存在天然的資源競爭關(guān)系 —— 模型難以同時兼顧 “記住更多信息” 與 “精準完成推理”。

這一背景下,DeepSeek則保持了一貫的“省錢”作風,看到了這之中存在的算力消耗問題論文。梁文鋒署名的新論文表示,語言建模本質(zhì)上包含兩類子任務(wù):一類是組合式推理,需要依賴深層、動態(tài)計算完成;另一類是知識檢索,面向命名實體等相對靜態(tài)的內(nèi)容,理論上可以通過簡單查找更高效地處理。然而,現(xiàn)有Transformer架構(gòu)缺乏原生的查找組件,遇到這類靜態(tài)信息時往往仍要反復(fù)調(diào)用深層網(wǎng)絡(luò)進行重建,從而加劇算力浪費并推高推理成本。

DeepSeek在論文中指出,當前主流模型在內(nèi)部運行方式上仍存在明顯低效論文。大量固定知識和常見語言模式并不需要復(fù)雜推理,但模型在推理時往往仍要通過多層計算重新構(gòu)建相關(guān)信息,導致算力被大量消耗在記憶相關(guān)操作上。在長文本和知識密集型任務(wù)中,這一問題更為突出,重復(fù)靜態(tài)信息的重建會增加額外的推理開銷并拉長推理鏈路。

首創(chuàng)MoE+Engram雙稀疏軸架構(gòu)論文,實現(xiàn)“推理+檢索”分工協(xié)作

那么論文,如何解決上述問題呢?

根據(jù)DeepSeek的論文,研究人員首次將條件記憶(Conditional Memory)作為混合專家模型(MoE)條件計算的互補維度,提出計算與記憶雙稀疏軸的設(shè)計思路,這也是此次研究的核心創(chuàng)新點論文

所謂“條件記憶”,是指模型能夠基于輸入中的局部上下文模式,以常數(shù)時間從大規(guī)模參數(shù)化記憶中檢索并融合靜態(tài)知識表示,從而避免在推理過程中反復(fù)通過深層計算重建高頻、模板化信息,類似于人類在面對熟悉知識時直接調(diào)用既有記憶,而非重新推導論文。

解析梁文鋒最新論文

▲Engram架構(gòu)示意圖 來源論文:DeepSeek論文截圖

具體而言,條件記憶通過Engram模塊(記憶痕跡)實現(xiàn)靜態(tài)知識存儲與動態(tài)計算的分離,達成靜態(tài)模式的常數(shù)時間O(1)查找論文。其核心邏輯是為語言建模的兩類子任務(wù)進行分工:MoE專注處理需要深層思考的組合式推理任務(wù),Engram則依托條件記憶機制負責靜態(tài)知識的快速檢索,從架構(gòu)上優(yōu)化了算力資源分配,改變了傳統(tǒng)模型用計算模擬記憶的低效模式。當大約20%至25%的稀疏參數(shù)預(yù)算分配給Engram,剩余部分留給MoE時(75% -80%),模型性能達到最佳。

這種稀疏性設(shè)計帶來兩大優(yōu)勢:一是大幅降低算力消耗,靜默狀態(tài)的記憶資源不占用計算資源,提升模型運行效率;二是拓展記憶容量,稀疏存儲模式可支持更大規(guī)模的知識存入,突破傳統(tǒng)注意力窗口的物理限制論文。

論文給出了這一新方案在準確性上所得到的提升:在長上下文檢索方面,研究人員采用業(yè)內(nèi)公認的兩個長上下文評測基準論文。實驗結(jié)果顯示,在32k上下文長度下,Engram-27B 在多項 Needle-in-a-Haystack(NIAH)任務(wù)中顯著優(yōu)于MoE基線模型,Multi-Query NIAH的準確率從 84.2%提升至97.0%,Variable Tracking從77.0%提升至89.0%。

目前,該研究的代碼已開源,DeepSeek團隊在論文最后表示,“我們認為條件記憶函數(shù)是下一代稀疏模型中不可或缺的建模基元論文?!边@一表述的背后,是行業(yè)對大模型技術(shù)演進方向的共識——當參數(shù)競賽進入瓶頸期,稀疏性設(shè)計將成為提升模型效率與能力的核心路徑,而條件記憶或許可以成為稀疏模型在記憶領(lǐng)域的關(guān)鍵突破。

在業(yè)界猜測DeepSeek下一代模型將于春節(jié)前發(fā)布的背景下,這篇論文的出現(xiàn)頗具風向標意義,論文提出的技術(shù)范式也為大模型的底層架構(gòu)創(chuàng)新提供了新的思路論文。

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E7%9B%B4%E6%8E%A5.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩