解析梁文鋒最新論文

新京報(bào)貝殼財(cái)經(jīng)記者 羅亦丹 實(shí)習(xí)生 郭雯華 編輯 岳彩周 校對 付春愔

1月12日晚間,DeepSeek發(fā)布梁文鋒署名的新論文,主題為《Conditional Memory via Scalable Lookup:A New Axis of Sparsity for Large Language Models》(直譯為基于可擴(kuò)展查找的條件記憶:大語言模型稀疏性的新維度),這也是2026開年至今,DeepSeek團(tuán)隊(duì)的第二篇重磅論文論文。

此前,在1月1日發(fā)布的論文中,DeepSeek提出一種名為“mHC”(直譯為“流形約束超連接”)的框架,可以有效解決大模型訓(xùn)練中的穩(wěn)定性問題論文。而在本次發(fā)布的論文中,DeepSeek聯(lián)合北京大學(xué)提出了“條件記憶”這一概念,直指當(dāng)前大語言模型基礎(chǔ)架構(gòu)Transformer在知識(shí)檢索方面存在的低效和算力消耗問題。

在這篇論文里,DeepSeek通過創(chuàng)新的Engram(直譯為:記憶痕跡)架構(gòu)為模型規(guī)模化擴(kuò)展提供了新的技術(shù)路徑,若以簡單的比喻來理解,就是DeepSeek設(shè)計(jì)了一種新架構(gòu),將大模型的“條件記憶”和“計(jì)算”分開,最終達(dá)到了降低錯(cuò)誤、節(jié)省算力的目的論文

▲預(yù)印本網(wǎng)站上DeepSeek的論文頁面截圖,紅框?yàn)榱何匿h名字論文。

大模型“痛點(diǎn)”:簡單問題需要復(fù)雜推理論文,容易“遺忘”

許多AI大模型用戶均曾在使用過程中發(fā)現(xiàn)過一個(gè)現(xiàn)象:AI會(huì)偶爾“忘記”自己曾經(jīng)說過的話論文。對于這一問題,有AI聊天重度用戶曾對記者表示,可以通過再次“提醒”的方式來讓AI重復(fù)記起,ChatGPT等應(yīng)用也對此進(jìn)行過設(shè)置,讓用戶可以保存一些較為重要的信息到“長期記憶”中。

然而,這一切只能“治標(biāo)”不能“治本”論文。究其原因,根據(jù)美國約翰斯·霍普金斯大學(xué)和中國人民大學(xué)的研究團(tuán)隊(duì)2025年3月發(fā)布的論文《大型語言模型不具備類人工作記憶》(LLMs Do Not Have Human-Like Working Memory),大語言模型所依賴的“上下文窗口”與工作記憶存在本質(zhì)區(qū)別。

根據(jù)研究人員測試,模型在處理超過5輪的多步驟邏輯推理任務(wù)時(shí),會(huì)出現(xiàn)關(guān)鍵信息丟失的現(xiàn)象,在長文本生成場景下,前文設(shè)定的人物關(guān)系、情節(jié)線索極易發(fā)生偏差論文。

展開全文

究其原因,在多輪對話中,早期輸入的關(guān)鍵信息會(huì)隨著對話輪次增加而逐漸衰減,最終被新信息覆蓋論文。這種 “答后忘前”的現(xiàn)象,本質(zhì)是模型的短時(shí)記憶無法有效轉(zhuǎn)化為長期可用的知識(shí)。另一方面,密集型注意力計(jì)算模式下,記憶存儲(chǔ)與邏輯推理共享算力資源,二者存在天然的資源競爭關(guān)系 —— 模型難以同時(shí)兼顧 “記住更多信息” 與 “精準(zhǔn)完成推理”。

這一背景下,DeepSeek則保持了一貫的“省錢”作風(fēng),看到了這之中存在的算力消耗問題論文。梁文鋒署名的新論文表示,語言建模本質(zhì)上包含兩類子任務(wù):一類是組合式推理,需要依賴深層、動(dòng)態(tài)計(jì)算完成;另一類是知識(shí)檢索,面向命名實(shí)體等相對靜態(tài)的內(nèi)容,理論上可以通過簡單查找更高效地處理。然而,現(xiàn)有Transformer架構(gòu)缺乏原生的查找組件,遇到這類靜態(tài)信息時(shí)往往仍要反復(fù)調(diào)用深層網(wǎng)絡(luò)進(jìn)行重建,從而加劇算力浪費(fèi)并推高推理成本。

DeepSeek在論文中指出,當(dāng)前主流模型在內(nèi)部運(yùn)行方式上仍存在明顯低效論文。大量固定知識(shí)和常見語言模式并不需要復(fù)雜推理,但模型在推理時(shí)往往仍要通過多層計(jì)算重新構(gòu)建相關(guān)信息,導(dǎo)致算力被大量消耗在記憶相關(guān)操作上。在長文本和知識(shí)密集型任務(wù)中,這一問題更為突出,重復(fù)靜態(tài)信息的重建會(huì)增加額外的推理開銷并拉長推理鏈路。

首創(chuàng)MoE+Engram雙稀疏軸架構(gòu)論文,實(shí)現(xiàn)“推理+檢索”分工協(xié)作

那么論文,如何解決上述問題呢?

根據(jù)DeepSeek的論文,研究人員首次將條件記憶(Conditional Memory)作為混合專家模型(MoE)條件計(jì)算的互補(bǔ)維度,提出計(jì)算與記憶雙稀疏軸的設(shè)計(jì)思路,這也是此次研究的核心創(chuàng)新點(diǎn)論文。

所謂“條件記憶”,是指模型能夠基于輸入中的局部上下文模式,以常數(shù)時(shí)間從大規(guī)模參數(shù)化記憶中檢索并融合靜態(tài)知識(shí)表示,從而避免在推理過程中反復(fù)通過深層計(jì)算重建高頻、模板化信息,類似于人類在面對熟悉知識(shí)時(shí)直接調(diào)用既有記憶,而非重新推導(dǎo)論文。

解析梁文鋒最新論文

▲Engram架構(gòu)示意圖 來源論文:DeepSeek論文截圖

具體而言,條件記憶通過Engram模塊(記憶痕跡)實(shí)現(xiàn)靜態(tài)知識(shí)存儲(chǔ)與動(dòng)態(tài)計(jì)算的分離,達(dá)成靜態(tài)模式的常數(shù)時(shí)間O(1)查找論文。其核心邏輯是為語言建模的兩類子任務(wù)進(jìn)行分工:MoE專注處理需要深層思考的組合式推理任務(wù),Engram則依托條件記憶機(jī)制負(fù)責(zé)靜態(tài)知識(shí)的快速檢索,從架構(gòu)上優(yōu)化了算力資源分配,改變了傳統(tǒng)模型用計(jì)算模擬記憶的低效模式。當(dāng)大約20%至25%的稀疏參數(shù)預(yù)算分配給Engram,剩余部分留給MoE時(shí)(75% -80%),模型性能達(dá)到最佳。

這種稀疏性設(shè)計(jì)帶來兩大優(yōu)勢:一是大幅降低算力消耗,靜默狀態(tài)的記憶資源不占用計(jì)算資源,提升模型運(yùn)行效率;二是拓展記憶容量,稀疏存儲(chǔ)模式可支持更大規(guī)模的知識(shí)存入,突破傳統(tǒng)注意力窗口的物理限制論文。

論文給出了這一新方案在準(zhǔn)確性上所得到的提升:在長上下文檢索方面,研究人員采用業(yè)內(nèi)公認(rèn)的兩個(gè)長上下文評測基準(zhǔn)論文。實(shí)驗(yàn)結(jié)果顯示,在32k上下文長度下,Engram-27B 在多項(xiàng) Needle-in-a-Haystack(NIAH)任務(wù)中顯著優(yōu)于MoE基線模型,Multi-Query NIAH的準(zhǔn)確率從 84.2%提升至97.0%,Variable Tracking從77.0%提升至89.0%。

目前,該研究的代碼已開源,DeepSeek團(tuán)隊(duì)在論文最后表示,“我們認(rèn)為條件記憶函數(shù)是下一代稀疏模型中不可或缺的建?;?strong>論文?!边@一表述的背后,是行業(yè)對大模型技術(shù)演進(jìn)方向的共識(shí)——當(dāng)參數(shù)競賽進(jìn)入瓶頸期,稀疏性設(shè)計(jì)將成為提升模型效率與能力的核心路徑,而條件記憶或許可以成為稀疏模型在記憶領(lǐng)域的關(guān)鍵突破。

在業(yè)界猜測DeepSeek下一代模型將于春節(jié)前發(fā)布的背景下,這篇論文的出現(xiàn)頗具風(fēng)向標(biāo)意義,論文提出的技術(shù)范式也為大模型的底層架構(gòu)創(chuàng)新提供了新的思路論文

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/post/5453.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩