久久久久免费国产精,国产精品无码专区网站,精品亚洲国产成人AV在线,国产精品无码中文字幕

克雷西發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

推理模型這就過(guò)時(shí)了論文？

當(dāng)中的扛把子GPT-5被一篇博士生論文打了個(gè)措手不及，上下文窗口被甩出兩個(gè)數(shù)量級(jí)論文。

而且新方法面對(duì)長(zhǎng)文本時(shí)的“上下文腐爛”現(xiàn)象也大幅減少，關(guān)鍵是成本還更便宜論文。

MIT新論文：2026推理模型過(guò)時(shí)了，“套娃模型”當(dāng)立

這就是MIT最新論文當(dāng)中提出的“套娃模型”新范式，被預(yù)言將成為今年的主流論文。

“套娃模型”正式名稱(chēng)叫做遞歸模型，核心流程是將文本存入代碼環(huán)境，讓模型編寫(xiě)程序拆解并遞歸調(diào)用自身處理論文。

有網(wǎng)友評(píng)價(jià)說(shuō)，遞歸模型不僅是在節(jié)省Token，更是在改變交互方式論文。

展開(kāi)全文

從它的各種指標(biāo)來(lái)看，推理模型，看上去真的是不香了論文。

代碼驅(qū)動(dòng)的遞歸推理

遞歸語(yǔ)言模型（RLM）一改將長(zhǎng)文本直接作為Prompt輸入神經(jīng)網(wǎng)絡(luò)的傳統(tǒng)做法，轉(zhuǎn)而采用一種 “環(huán)境化”的處理范式論文。

其核心邏輯在于將自然語(yǔ)言處理任務(wù)重構(gòu)為交互式編程任務(wù)，引入一個(gè)外部的Python REPL（讀取-求值-輸出循環(huán)）環(huán)境，將超長(zhǎng)文本作為一個(gè)靜態(tài)字符串變量存儲(chǔ)在內(nèi)存中論文。

在這種架構(gòu)下，大模型不再一次性編碼所有信息，而是作為一個(gè)擁有讀寫(xiě)權(quán)限的Agent，通過(guò)生成和執(zhí)行Python代碼來(lái)對(duì)這個(gè)外部變量進(jìn)行操作論文。

這種設(shè)計(jì)從根本上解耦了輸入數(shù)據(jù)的長(zhǎng)度與模型自身的上下文窗口大小，允許處理的文本長(zhǎng)度僅受限于物理內(nèi)存而非Transformer的注意力機(jī)制跨度論文。

在具體的執(zhí)行流程中，RLM建立了一套基于代碼的認(rèn)知循環(huán)論文。

當(dāng)系統(tǒng)接收到一個(gè)長(zhǎng)文本任務(wù)時(shí)，它首先啟動(dòng)Python環(huán)境并將文本載入變量P，隨后，模型進(jìn)入一個(gè)迭代循環(huán)，首先觀察當(dāng)前的環(huán)境狀態(tài)，編寫(xiě)一段Python代碼來(lái)探測(cè)文本論文。

這些代碼在REPL環(huán)境中被執(zhí)行后，其運(yùn)行結(jié)果會(huì)作為新的觀測(cè)數(shù)據(jù)反饋給模型論文。

通過(guò)這種 “編寫(xiě)代碼-觀察執(zhí)行結(jié)果”的循環(huán)，模型能夠以極低的計(jì)算成本在龐大的文本數(shù)據(jù)中進(jìn)行索引和定位，僅在必要時(shí)讀取關(guān)鍵段落，從而實(shí)現(xiàn)了對(duì)上下文的高效管理論文。

遞歸調(diào)用是該機(jī)制能夠處理無(wú)限長(zhǎng)上下文的關(guān)鍵所在論文。

RLM允許模型在編寫(xiě)的代碼中調(diào)用一個(gè)特殊的接口函數(shù)，該函數(shù)的作用是啟動(dòng)模型自身的一個(gè)新實(shí)例（或更小的子模型）來(lái)處理特定的子任務(wù)論文。

當(dāng)模型通過(guò)代碼將長(zhǎng)文本切割為多個(gè)部分后，它可以針對(duì)每一個(gè)部分生成一個(gè)新的Prompt，并調(diào)用子模型分別進(jìn)行處理論文。

這些子模型的輸出并不是直接返回給用戶(hù)，而是被賦值給新的變量，存儲(chǔ)在當(dāng)前的Python環(huán)境中論文。

主模型隨后可以編寫(xiě)代碼讀取這些變量，對(duì)其進(jìn)行邏輯判斷、拼接或進(jìn)一步的語(yǔ)義整合論文。

這種遞歸結(jié)構(gòu)不僅實(shí)現(xiàn)了任務(wù)的并行化分解，更重要的是它支持多層級(jí)的深度推理，每一層遞歸都只需要處理當(dāng)前層級(jí)的局部信息，從而確保整個(gè)處理過(guò)程始終維持在模型原本的上下文窗口限制之內(nèi)論文。

這種基于代碼環(huán)境的交互方式為模型誘發(fā)了多種高效的涌現(xiàn)策略，模型在并未經(jīng)過(guò)專(zhuān)門(mén)訓(xùn)練的情況下，自發(fā)學(xué)會(huì)了利用正則表達(dá)式等編程工具來(lái)過(guò)濾信息論文。

例如，在尋找特定信息時(shí)，模型會(huì)先構(gòu)造查詢(xún)語(yǔ)句在變量中進(jìn)行關(guān)鍵詞匹配，僅提取包含關(guān)鍵詞的上下文片段進(jìn)行閱讀，這種先檢索后閱讀的策略極大地減少了Token的消耗論文。

此外，針對(duì)輸出長(zhǎng)度受限的問(wèn)題，RLM顯現(xiàn)出了通過(guò)變量拼接結(jié)果的能力論文。

在處理需要生成超長(zhǎng)答案的任務(wù)時(shí)，模型會(huì)將子任務(wù)的生成結(jié)果分別存儲(chǔ)在列表變量中，最后通過(guò)代碼將這些字符串連接起來(lái)論文。

這種機(jī)制實(shí)際上是在外部環(huán)境中構(gòu)建了一個(gè)動(dòng)態(tài)的、可編程的工作記憶空間，使得模型能夠像操作數(shù)據(jù)庫(kù)一樣操作自然語(yǔ)言文本，在不改變底層神經(jīng)網(wǎng)絡(luò)權(quán)重的前提下，具備了處理極高復(fù)雜度長(zhǎng)文本的邏輯推理能力論文。

突破千萬(wàn)級(jí)Token的性能極限

實(shí)驗(yàn)數(shù)據(jù)顯示，RLM的有效處理規(guī)模已達(dá)到1000萬(wàn)Token級(jí)別，超出GPT-5等前沿模型原生上下文窗口兩個(gè)數(shù)量級(jí)論文。

在包含GPT-5和Qwen3-Coder-480B等模型的評(píng)測(cè)中，RLM突破了物理顯存對(duì)上下文長(zhǎng)度的限制，并在任務(wù)完成質(zhì)量上超越了基礎(chǔ)模型及現(xiàn)有的長(zhǎng)文本處理方案論文。

并且針對(duì)長(zhǎng)文本處理中常見(jiàn)的“上下文腐爛”問(wèn)題，RLM也表現(xiàn)出了較強(qiáng)的穩(wěn)定性論文。

傳統(tǒng)基礎(chǔ)模型在S-NIAH單針大海撈針等簡(jiǎn)單檢索任務(wù)中尚能維持表現(xiàn)，但在信息密度更高的復(fù)雜任務(wù)中，其推理性能隨輸入長(zhǎng)度增加而下降論文。相比之下，RLM在輸入長(zhǎng)度超過(guò)特定閾值區(qū)間后，依然保持得分穩(wěn)定性。

RLM在對(duì)高密度、高復(fù)雜度信息的整合能力上也表現(xiàn)出了顯著差異論文。

對(duì)于要求模型線性?huà)呙璨⑻幚砦闹袔缀跛行畔⒌腛OLONG任務(wù)，基礎(chǔ)GPT-5的性能隨長(zhǎng)度增加而衰減，而RLM則實(shí)現(xiàn)了雙位數(shù)的性能提升論文。

在難度更高的OOLONG-Pairs測(cè)試（該任務(wù)要求模型聚合文中成對(duì)的信息片段）中，處理復(fù)雜度隨長(zhǎng)度呈二次方增長(zhǎng)論文。

面對(duì)這種高難度的推理任務(wù)，基礎(chǔ)GPT-5和Qwen3-Coder模型F1分?jǐn)?shù)不足0.1%論文。然而，搭載RLM架構(gòu)的GPT-5和Qwen3-Coder在同一任務(wù)上分別取得了58.00%和23.11%的F1分?jǐn)?shù)。

由于RLM將Prompt視為外部環(huán)境，有選擇性地讀取與任務(wù)相關(guān)的片段，而非被迫全量攝入，因此在成本效益方面，RLM改變了“上下文越長(zhǎng)成本越高”的線性規(guī)律論文。

例如在BrowseComp-Plus基準(zhǔn)測(cè)試中，GPT-5-mini處理600萬(wàn)至1100萬(wàn)Token輸入的理論成本約為1.50至2.75美元，而RLM的平均實(shí)際花費(fèi)僅為0.99美元論文。

這一成本低于全量閱讀的基礎(chǔ)模型，也比試圖壓縮上下文的Summary Agent方案更低論文。

這表明RLM能夠在保持性能的同時(shí)，通過(guò)按需讀取策略控制推理成本，為長(zhǎng)文本應(yīng)用的大規(guī)模落地提供了經(jīng)濟(jì)可行的路徑論文。

作者簡(jiǎn)介

本文第一作者為MIT CASIL實(shí)驗(yàn)室博士生Alex Zhang論文。

Alex本科就讀于普林斯頓，以該校計(jì)算機(jī)科學(xué)系第一名的成績(jī)畢業(yè)論文。

其研究方向主要包括評(píng)估語(yǔ)言模型能力、機(jī)器學(xué)習(xí)系統(tǒng)和GPU編程，以及用于代碼生成的AI論文。

另外兩位署名者Omar Khattab和Tim Kraska都是Alex的導(dǎo)師論文。

Tim和Omar兩人均為MIT助理教授論文。

論文地址論文：

MIT新論文：2026推理模型過(guò)時(shí)了，“套娃模型”當(dāng)立

海之嵐財(cái)稅公司

熱門(mén)標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

MIT新論文：2026推理模型過(guò)時(shí)了，“套娃模型”當(dāng)立

海之嵐財(cái)稅公司

熱門(mén)標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

MIT新論文：2026推理模型過(guò)時(shí)了，“套娃模型”當(dāng)立