MIT新論文:2026推理模型過(guò)時(shí)了,“套娃模型”當(dāng)立

克雷西 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

推理模型這就過(guò)時(shí)了論文?

當(dāng)中的扛把子GPT-5被一篇博士生論文打了個(gè)措手不及,上下文窗口被甩出兩個(gè)數(shù)量級(jí)論文。

而且新方法面對(duì)長(zhǎng)文本時(shí)的“上下文腐爛”現(xiàn)象也大幅減少,關(guān)鍵是成本還更便宜論文。

MIT新論文:2026推理模型過(guò)時(shí)了,“套娃模型”當(dāng)立

這就是MIT最新論文當(dāng)中提出的“套娃模型”新范式,被預(yù)言將成為今年的主流論文。

“套娃模型”正式名稱(chēng)叫做 遞歸模型,核心流程是 將文本存入代碼環(huán)境,讓模型編寫(xiě)程序拆解并遞歸調(diào)用自身處理論文。

MIT新論文:2026推理模型過(guò)時(shí)了,“套娃模型”當(dāng)立

有網(wǎng)友評(píng)價(jià)說(shuō),遞歸模型不僅是在節(jié)省Token,更是在改變交互方式論文。

MIT新論文:2026推理模型過(guò)時(shí)了,“套娃模型”當(dāng)立

展開(kāi)全文

從它的各種指標(biāo)來(lái)看,推理模型,看上去真的是不香了論文。

代碼驅(qū)動(dòng)的遞歸推理

遞歸語(yǔ)言模型(RLM)一改將長(zhǎng)文本直接作為Prompt輸入神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)做法,轉(zhuǎn)而采用一種 “環(huán)境化”的處理范式論文。

其核心邏輯在于將自然語(yǔ)言處理任務(wù)重構(gòu)為交互式編程任務(wù),引入一個(gè)外部的Python REPL(讀取-求值-輸出循環(huán))環(huán)境, 將超長(zhǎng)文本作為一個(gè)靜態(tài)字符串變量存儲(chǔ)在內(nèi)存中論文。

在這種架構(gòu)下,大模型不再一次性編碼所有信息,而是作為一個(gè)擁有讀寫(xiě)權(quán)限的Agent,通過(guò)生成和執(zhí)行Python代碼來(lái)對(duì)這個(gè)外部變量進(jìn)行操作論文。

這種設(shè)計(jì)從根本上解耦了輸入數(shù)據(jù)的長(zhǎng)度與模型自身的上下文窗口大小,允許處理的文本長(zhǎng)度僅受限于物理內(nèi)存而非Transformer的注意力機(jī)制跨度論文。

MIT新論文:2026推理模型過(guò)時(shí)了,“套娃模型”當(dāng)立

在具體的執(zhí)行流程中,RLM建立了一套基于代碼的認(rèn)知循環(huán)論文。

當(dāng)系統(tǒng)接收到一個(gè)長(zhǎng)文本任務(wù)時(shí),它首先啟動(dòng)Python環(huán)境并將文本載入變量P,隨后,模型進(jìn)入一個(gè)迭代循環(huán),首先觀察當(dāng)前的環(huán)境狀態(tài),編寫(xiě)一段Python代碼來(lái)探測(cè)文本論文

這些代碼在REPL環(huán)境中被執(zhí)行后,其運(yùn)行結(jié)果會(huì)作為新的觀測(cè)數(shù)據(jù)反饋給模型論文。

通過(guò)這種 “編寫(xiě)代碼-觀察執(zhí)行結(jié)果”的循環(huán),模型能夠以極低的計(jì)算成本在龐大的文本數(shù)據(jù)中進(jìn)行索引和定位,僅在必要時(shí)讀取關(guān)鍵段落,從而實(shí)現(xiàn)了對(duì)上下文的高效管理論文。

遞歸調(diào)用是該機(jī)制能夠處理無(wú)限長(zhǎng)上下文的關(guān)鍵所在論文。

RLM允許模型在編寫(xiě)的代碼中調(diào)用一個(gè)特殊的接口函數(shù),該函數(shù)的作用是啟動(dòng)模型自身的一個(gè)新實(shí)例(或更小的子模型)來(lái)處理特定的子任務(wù)論文

當(dāng)模型通過(guò)代碼將長(zhǎng)文本切割為多個(gè)部分后,它可以針對(duì)每一個(gè)部分生成一個(gè)新的Prompt,并調(diào)用子模型分別進(jìn)行處理論文

這些子模型的輸出并不是直接返回給用戶(hù),而是被賦值給新的變量,存儲(chǔ)在當(dāng)前的Python環(huán)境中論文。

主模型隨后可以編寫(xiě)代碼讀取這些變量,對(duì)其進(jìn)行邏輯判斷、拼接或進(jìn)一步的語(yǔ)義整合論文。

這種遞歸結(jié)構(gòu)不僅實(shí)現(xiàn)了任務(wù)的并行化分解,更重要的是它支持多層級(jí)的深度推理,每一層遞歸都只需要處理當(dāng)前層級(jí)的局部信息,從而確保整個(gè)處理過(guò)程始終維持在模型原本的上下文窗口限制之內(nèi)論文

這種基于代碼環(huán)境的交互方式為模型誘發(fā)了多種高效的涌現(xiàn)策略,模型在并未經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練的情況下,自發(fā)學(xué)會(huì)了利用正則表達(dá)式等編程工具來(lái)過(guò)濾信息論文。

例如,在尋找特定信息時(shí),模型會(huì)先構(gòu)造查詢(xún)語(yǔ)句在變量中進(jìn)行關(guān)鍵詞匹配,僅提取包含關(guān)鍵詞的上下文片段進(jìn)行閱讀,這種先檢索后閱讀的策略極大地減少了Token的消耗論文。

此外,針對(duì)輸出長(zhǎng)度受限的問(wèn)題,RLM顯現(xiàn)出了通過(guò)變量拼接結(jié)果的能力論文。

在處理需要生成超長(zhǎng)答案的任務(wù)時(shí),模型會(huì)將子任務(wù)的生成結(jié)果分別存儲(chǔ)在列表變量中,最后通過(guò)代碼將這些字符串連接起來(lái)論文

這種機(jī)制實(shí)際上是在外部環(huán)境中構(gòu)建了一個(gè)動(dòng)態(tài)的、可編程的工作記憶空間,使得模型能夠像操作數(shù)據(jù)庫(kù)一樣操作自然語(yǔ)言文本,在不改變底層神經(jīng)網(wǎng)絡(luò)權(quán)重的前提下,具備了處理極高復(fù)雜度長(zhǎng)文本的邏輯推理能力論文。

突破千萬(wàn)級(jí)Token的性能極限

實(shí)驗(yàn)數(shù)據(jù)顯示,RLM的有效處理規(guī)模已達(dá)到1000萬(wàn)Token級(jí)別,超出GPT-5等前沿模型原生上下文窗口兩個(gè)數(shù)量級(jí)論文。

在包含GPT-5和Qwen3-Coder-480B等模型的評(píng)測(cè)中,RLM突破了物理顯存對(duì)上下文長(zhǎng)度的限制,并在任務(wù)完成質(zhì)量上超越了基礎(chǔ)模型及現(xiàn)有的長(zhǎng)文本處理方案論文。

并且針對(duì)長(zhǎng)文本處理中常見(jiàn)的“上下文腐爛”問(wèn)題,RLM也表現(xiàn)出了較強(qiáng)的穩(wěn)定性論文。

傳統(tǒng)基礎(chǔ)模型在S-NIAH單針大海撈針等簡(jiǎn)單檢索任務(wù)中尚能維持表現(xiàn),但在信息密度更高的復(fù)雜任務(wù)中,其推理性能隨輸入長(zhǎng)度增加而下降論文。相比之下,RLM在輸入長(zhǎng)度超過(guò)特定閾值區(qū)間后,依然保持得分穩(wěn)定性。

RLM在對(duì)高密度、高復(fù)雜度信息的整合能力上也表現(xiàn)出了顯著差異論文。

對(duì)于要求模型線性?huà)呙璨⑻幚砦闹袔缀跛行畔⒌腛OLONG任務(wù),基礎(chǔ)GPT-5的性能隨長(zhǎng)度增加而衰減,而RLM則實(shí)現(xiàn)了雙位數(shù)的性能提升論文。

在難度更高的OOLONG-Pairs測(cè)試(該任務(wù)要求模型聚合文中成對(duì)的信息片段)中,處理復(fù)雜度隨長(zhǎng)度呈二次方增長(zhǎng)論文。

面對(duì)這種高難度的推理任務(wù),基礎(chǔ)GPT-5和Qwen3-Coder模型F1分?jǐn)?shù)不足0.1%論文。然而,搭載RLM架構(gòu)的GPT-5和Qwen3-Coder在同一任務(wù)上分別取得了58.00%和23.11%的F1分?jǐn)?shù)。

由于RLM將Prompt視為外部環(huán)境,有選擇性地讀取與任務(wù)相關(guān)的片段,而非被迫全量攝入,因此在成本效益方面,RLM改變了“上下文越長(zhǎng)成本越高”的線性規(guī)律論文。

例如在BrowseComp-Plus基準(zhǔn)測(cè)試中,GPT-5-mini處理600萬(wàn)至1100萬(wàn)Token輸入的理論成本約為1.50至2.75美元,而RLM的平均實(shí)際花費(fèi)僅為0.99美元論文

這一成本低于全量閱讀的基礎(chǔ)模型,也比試圖壓縮上下文的Summary Agent方案更低論文

這表明RLM能夠在保持性能的同時(shí),通過(guò)按需讀取策略控制推理成本,為長(zhǎng)文本應(yīng)用的大規(guī)模落地提供了經(jīng)濟(jì)可行的路徑論文。

作者簡(jiǎn)介

本文第一作者為MIT CASIL實(shí)驗(yàn)室博士生Alex Zhang論文。

MIT新論文:2026推理模型過(guò)時(shí)了,“套娃模型”當(dāng)立

Alex本科就讀于普林斯頓,以該校計(jì)算機(jī)科學(xué)系第一名的成績(jī)畢業(yè)論文。

MIT新論文:2026推理模型過(guò)時(shí)了,“套娃模型”當(dāng)立

其研究方向主要包括評(píng)估語(yǔ)言模型能力、機(jī)器學(xué)習(xí)系統(tǒng)和GPU編程,以及用于代碼生成的AI論文。

另外兩位署名者Omar Khattab和Tim Kraska都是Alex的導(dǎo)師論文。

Tim和Omar兩人均為MIT助理教授論文。

論文地址論文

本站內(nèi)容來(lái)自用戶(hù)投稿,如果侵犯了您的權(quán)利,請(qǐng)與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/post/1958.html

?? 簡(jiǎn) /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩