姚順雨的這篇論文火了!

就在騰訊混元團隊發(fā)布CL-bench論文,深入探討AI如何準(zhǔn)確理解復(fù)雜情境信息的同一時期,微信卻對騰訊自家的AI產(chǎn)品"騰訊元寶"按下了暫停鍵,一場出人意料的內(nèi)部沖突為這篇學(xué)術(shù)論文增添了戲劇性注腳論文。

姚順雨的這篇論文火了!

臨近春節(jié)期間,騰訊元寶在微信群里發(fā)起10億紅包裂變活動,僅3天后就因"誘導(dǎo)分享、影響用戶體驗"被微信安全中心屏蔽,導(dǎo)致騰訊股價應(yīng)聲下跌超過3個點,4天內(nèi)市值蒸發(fā)超過4000億港元論文。這個封禁動作像一面鏡子,恰好反向印證了論文所揭示的核心問題——即便是騰訊這樣的科技巨頭,在處理"上下文"時依然面臨著嚴(yán)峻挑戰(zhàn),連內(nèi)部不同產(chǎn)品之間的上下文都沒有對齊。

這場風(fēng)波的實質(zhì),是兩種產(chǎn)品哲學(xué)的碰撞論文。微信團隊長期信奉的"克制美學(xué)"——拒絕打擾式營銷、保持界面簡潔、尊重用戶選擇權(quán),塑造了其獨特的產(chǎn)品氣質(zhì);而AI技術(shù)的演進方向,天然追求更深入的用戶洞察、更主動的服務(wù)介入、更緊密的產(chǎn)品粘性。當(dāng)"讓用戶自由離開"遇上"讓AI主動留住",理念層面的張力便顯現(xiàn)出來。

這場爭議恰好提出了一個值得全行業(yè)思考的命題:當(dāng)尖端技術(shù)遇到成熟產(chǎn)品理念,融合的邊界應(yīng)該在哪里?接下來,讓我們深入CL-bench的研究發(fā)現(xiàn),看看"情境學(xué)習(xí)"為何成為制約當(dāng)前AI發(fā)展的關(guān)鍵短板論文

當(dāng)前語言模型的能力錯配現(xiàn)象

現(xiàn)有的大語言模型在利用預(yù)訓(xùn)練知識解決提示詞指定的問題方面表現(xiàn)卓越,在競賽級數(shù)學(xué)問題、競技編程挑戰(zhàn)和專家級考試等任務(wù)上都取得了令人印象深刻的成績論文。然而,現(xiàn)實世界的任務(wù)范圍遠(yuǎn)遠(yuǎn)超出了當(dāng)前評估中常見的問題類型。具體而言,許多真實任務(wù)高度依賴于情境,需要模型從復(fù)雜情境中學(xué)習(xí),利用預(yù)訓(xùn)練中未曾見過的新知識來有效推理和解決任務(wù)。這種情境依賴性與當(dāng)前模型的優(yōu)化方向存在明顯的錯配。

當(dāng)前的優(yōu)化范式主要集中在提示工程和上下文學(xué)習(xí)上論文。提示工程通過精心設(shè)計的指令讓模型執(zhí)行任務(wù),這種范式主要針對相對簡單的任務(wù),模型可以通過對提示詞的推理和現(xiàn)有的內(nèi)部預(yù)訓(xùn)練知識來解決。上下文學(xué)習(xí)則通過加入少量輸入輸出示例來增強提示工程,使模型能夠推斷任務(wù)格式和預(yù)期行為。然而,這兩種范式都主要強調(diào)從簡單提示和預(yù)訓(xùn)練知識進行推理,與真實場景相距甚遠(yuǎn)。在實踐中,真實任務(wù)往往要求模型對預(yù)訓(xùn)練中缺失的新知識進行推理,而這些知識是通過復(fù)雜情境提供的。

這種差距催生了情境工程作為部署語言模型到真實應(yīng)用中的主導(dǎo)范式論文。情境工程專注于從私有文檔、數(shù)據(jù)庫和知識庫等多樣化來源檢索、組織、管理和優(yōu)化任務(wù)相關(guān)情境。為支持有效的情境構(gòu)建,已經(jīng)提出了廣泛的技術(shù),包括檢索增強生成、記憶系統(tǒng)和代理式檢索增強生成管道。然而,情境工程主要強調(diào)提供什么情境以及如何組織它,卻忽視了模型是否真正能夠從提供的情境中學(xué)習(xí)。研究團隊認(rèn)為,情境學(xué)習(xí)才是使模型真正有效利用情境的基礎(chǔ)能力。與傳統(tǒng)的上下文學(xué)習(xí)主要關(guān)注從少量示例中學(xué)習(xí)任務(wù)格式或淺層啟發(fā)式不同,情境學(xué)習(xí)強調(diào)從復(fù)雜情境中獲取和應(yīng)用新知識,這種能力使模型能夠有效地超越預(yù)訓(xùn)練知識進行推理,解決復(fù)雜的真實任務(wù)。

展開全文

CL-bench的構(gòu)建理念與特色

CL-bench的設(shè)計旨在評估語言模型從提供的情境中學(xué)習(xí)并應(yīng)用所學(xué)內(nèi)容解決任務(wù)的能力論文。模型需要解決基于真實場景的復(fù)雜任務(wù),解決這些任務(wù)所需的知識無論是新創(chuàng)建的還是小眾冷門的,都在很大程度上超出了現(xiàn)有模型在預(yù)訓(xùn)練期間獲得的范圍。CL-bench中的新知識采取多種形式,包括但不限于書籍、新聞報道、轉(zhuǎn)錄文本、研究論文、文檔、報告、實驗數(shù)據(jù)、代碼倉庫、產(chǎn)品和操作手冊以及搜索結(jié)果。所有必要的知識都已被仔細(xì)組織到提供的情境中,因此模型無需從外部來源檢索信息。

CL-bench中的每個情境涉及解決多個任務(wù),其中51.1%的任務(wù)是順序性的,它們在多個交互輪次中呈現(xiàn),解決這些任務(wù)依賴于先前任務(wù)的解決方案論文。這種多輪設(shè)計進一步增加了任務(wù)難度,更好地反映了真實使用場景?;鶞?zhǔn)的統(tǒng)計數(shù)據(jù)顯示,500個情境包含1899個任務(wù)和31607條評估標(biāo)準(zhǔn),每個情境平均包含3.8個任務(wù),每個任務(wù)平均包含16.6條評估標(biāo)準(zhǔn)。情境的平均輸入長度為10.4K tokens,最長可達(dá)65K tokens。

CL-bench的一個顯著特點是其防污染設(shè)計論文。為確保CL-bench評估的是真正的情境學(xué)習(xí)能力,而非允許模型僅依靠預(yù)訓(xùn)練知識解決任務(wù),研究團隊采用了三種方法來構(gòu)建包含新知識的情境:第一種是虛構(gòu)創(chuàng)作,專家創(chuàng)建完全虛構(gòu)的內(nèi)容,例如為虛構(gòu)國家發(fā)明完整的法律系統(tǒng),包含新穎的案例先例和法律原則,或設(shè)計具有獨特語法和語義的新編程語言。第二種是修改現(xiàn)有內(nèi)容,專家修改真實世界的內(nèi)容以創(chuàng)建變體,例如改變歷史事件、更改科學(xué)和數(shù)學(xué)定義,或修改技術(shù)文檔和規(guī)范。第三種是納入小眾和新興內(nèi)容,專家納入在預(yù)訓(xùn)練語料庫中基本上沒有很好代表的小眾或新近出現(xiàn)的內(nèi)容,例如前沿研究發(fā)現(xiàn)、新發(fā)布的產(chǎn)品手冊和技術(shù)文檔,或來自狹窄專業(yè)領(lǐng)域的特定領(lǐng)域知識。這些方法確保模型幾乎無法僅依靠預(yù)訓(xùn)練知識,而必須真正從提供的情境中學(xué)習(xí)才能解決任務(wù)。

為了驗證這一設(shè)計,研究團隊進行了無情境消融實驗,結(jié)果顯示在沒有情境訪問的情況下,最佳模型的任務(wù)解決率僅不到1%,進一步確認(rèn)了CL-bench中任務(wù)的情境依賴性論文。這意味著即使是當(dāng)前最先進的語言模型,在缺乏具體情境信息的情況下,也幾乎無法依靠預(yù)訓(xùn)練知識獨立完成這些任務(wù)。

四大情境類別覆蓋真實世界應(yīng)用

CL-bench根據(jù)人類在現(xiàn)實世界中遇到的情境以及他們通常如何學(xué)習(xí)和應(yīng)用這些情境,將情境分為四大類別,進一步細(xì)分為18個子類別,以驗證在多樣化真實場景中的情境學(xué)習(xí)能力論文。

第一類是領(lǐng)域知識推理論文。這一類別中的情境提供專業(yè)領(lǐng)域知識,例如虛構(gòu)的法律系統(tǒng)、新創(chuàng)建的金融工具或小眾專業(yè)知識。模型必須從情境中學(xué)習(xí)特定領(lǐng)域知識,并將其應(yīng)用于解決任務(wù),例如裁決法律案件和解決糾紛、進行財務(wù)分析或提供專業(yè)建議。這一類別根據(jù)知識領(lǐng)域分為七個子類別,包括金融、醫(yī)療保健、人文學(xué)科、法律咨詢、生活方式、管理和科學(xué)。例如,一個任務(wù)可能要求模型理解一個虛構(gòu)國家的完整法律系統(tǒng),包括案例先例和法律原則,并將其應(yīng)用于審理案件;或者要求理解新創(chuàng)建的金融衍生品及其定價模型,然后進行投資分析。

第二類是規(guī)則系統(tǒng)應(yīng)用論文。情境提供具有明確規(guī)則的新穎形式系統(tǒng),例如新的游戲機制、數(shù)學(xué)形式主義、編程語言語法或技術(shù)標(biāo)準(zhǔn)。模型必須從情境中理解這些規(guī)則系統(tǒng),并正確應(yīng)用它們來解決任務(wù),例如玩游戲和分析游戲狀態(tài)、構(gòu)建數(shù)學(xué)證明、解決代碼相關(guān)任務(wù)或解釋法規(guī)和法律條款。這一類別根據(jù)規(guī)則類型分為五個子類別:游戲機制、數(shù)學(xué)形式主義、編程語法、法律法規(guī)和技術(shù)標(biāo)準(zhǔn)。一個典型任務(wù)可能是學(xué)習(xí)一門全新的編程語言語法,然后用這門語言編寫程序解決特定問題,或者學(xué)習(xí)一個新棋盤游戲的完整規(guī)則,然后在給定游戲狀態(tài)下計算最優(yōu)走法。

第三類是程序性任務(wù)執(zhí)行論文。這一類別中的情境提供復(fù)雜的程序、工作流或操作說明,例如產(chǎn)品手冊、軟件文檔或會議組織工作流。模型必須從情境中學(xué)習(xí)這些程序,并正確執(zhí)行它們以完成任務(wù),例如故障排除、提供操作指導(dǎo)或編排復(fù)雜的工作流。這一類別根據(jù)程序類型分為三個子類別:指導(dǎo)性程序、操作程序和工作流編排。例如,一個任務(wù)可能提供一份詳細(xì)的無人機操作系統(tǒng)API文檔,要求模型將自然語言指令轉(zhuǎn)換為符合安全協(xié)議的偽代碼,或者根據(jù)復(fù)雜的會議組織手冊,生成完整的會議籌備時間表和責(zé)任分配方案。

第四類是實證發(fā)現(xiàn)與模擬論文。這一類別中的情境提供實驗數(shù)據(jù)、觀測記錄或由復(fù)雜系統(tǒng)控制的模擬環(huán)境。例如,模型可能需要分析電子在磁場中沿螺旋軌跡運動的實驗數(shù)據(jù)來解決特定問題,或者在虛擬沙盒環(huán)境中進行模擬和推理。模型必須分析提供的數(shù)據(jù)以發(fā)現(xiàn)模式或規(guī)律,或理解模擬環(huán)境以進行分析和問題解決。這一類別是最具挑戰(zhàn)性的,因為它需要從經(jīng)驗證據(jù)中進行歸納推理來發(fā)現(xiàn)潛在模式,與前三類強調(diào)的演繹推理形成對比。它根據(jù)知識呈現(xiàn)方式分為三個子類別:實驗數(shù)據(jù)、觀測數(shù)據(jù)和模擬環(huán)境。一個典型任務(wù)可能提供大量粒子在不同條件下的運動軌跡數(shù)據(jù),要求模型歸納出控制粒子運動的物理定律,然后用這個定律預(yù)測新條件下的運動行為。

嚴(yán)格的自動化評估體系

CL-bench中的復(fù)雜任務(wù)無法使用通用的基于規(guī)則的驗證器進行可靠評估,因為許多任務(wù)的答案難以用預(yù)定義規(guī)則驗證,或可能存在多個正確解決方案論文。研究團隊采用任務(wù)級評估標(biāo)準(zhǔn)來實現(xiàn)可靠的自動化評估。具體而言,每條評估標(biāo)準(zhǔn)都被設(shè)計為只允許"是"或"否"答案的二元問題。"是"答案表示語言模型的解決方案滿足這條評估標(biāo)準(zhǔn)。所有評估標(biāo)準(zhǔn)都由經(jīng)驗豐富的領(lǐng)域?qū)<覙?gòu)建,并經(jīng)過嚴(yán)格的質(zhì)量控制,包括雙重檢查和隨機抽樣驗證,以確保評估的有效性和精確性。

評估標(biāo)準(zhǔn)的設(shè)計從多個維度全面驗證任務(wù)是否正確解決,包括事實正確性、計算準(zhǔn)確性、判斷正確性、程序正確性、內(nèi)容完整性和格式合規(guī)性論文。CL-bench中的每個任務(wù)平均包含16.6條評估標(biāo)準(zhǔn)。研究團隊使用語言模型作為驗證器,根據(jù)任務(wù)級評估標(biāo)準(zhǔn)驗證語言模型的解決方案。他們采用嚴(yán)格的評估標(biāo)準(zhǔn):只有當(dāng)語言模型的解決方案通過所有相關(guān)評估標(biāo)準(zhǔn)時,才認(rèn)為該模型成功解決了任務(wù)。

在所有實驗中,研究團隊使用GPT-5.1作為驗證器論文。為評估自動評估框架的可靠性,他們進行了兩項額外的驗證實驗。第一項實驗檢查當(dāng)GPT-5.1同時作為解決方案生成器和驗證器時可能存在的偏見,研究團隊額外使用Claude Opus 4.5和Qwen-3-Max作為驗證器。結(jié)果顯示,GPT-5.1與其他兩個驗證器之間的原始一致性超過90%,表明驗證器之間具有很強的一致性,并且GPT-5.1沒有表現(xiàn)出明顯的自我評估偏見。第二項實驗中,研究團隊隨機抽樣100個由語言模型生成的解決方案以及GPT-5.1生成的理由和分?jǐn)?shù),由標(biāo)注員評估GPT-5.1的判斷是否與任務(wù)級評估標(biāo)準(zhǔn)一致。結(jié)果顯示評估準(zhǔn)確率超過90%,表明基于GPT-5.1的驗證器和整體評估框架具有高可靠性。

前沿模型的表現(xiàn)與深度分析

研究團隊通過官方API評估了十個最先進的語言模型,包括OpenAI的GPT-5.1和GPT-5.2(高推理努力級別)以及o3(高努力級別)、Anthropic的Claude-Opus-4.5 Thinking、Google的Gemini-3-Pro(高努力級別)、月之暗面的Kimi-K2 Thinking、阿里巴巴的Qwen-3-Max Thinking(預(yù)覽版)、深度求索的DeepSeek-V3.2-Thinking、字節(jié)跳動的Doubao-1.6-Thinking,以及騰訊的HY-2.0-Thinking論文??紤]到CL-bench的挑戰(zhàn)性(需要強大的推理和長情境能力),研究重點放在評估具有思考或高推理努力設(shè)置的前沿模型上。

評估結(jié)果令人震驚論文。所有被評估模型的整體任務(wù)解決率平均僅為17.2%,即使表現(xiàn)最好的模型GPT-5.1也只達(dá)到23.7%。其他大多數(shù)模型集中在13%到18%之間,其中Kimi K2和HY 2.0分別達(dá)到17.6%和17.2%,接近o3的性能水平。值得注意的是,HY 2.0在領(lǐng)域知識推理上與o3持平,解決率均為18.0%,并且在規(guī)則系統(tǒng)應(yīng)用和程序性任務(wù)執(zhí)行上都超過了Kimi K2,分別達(dá)到17.3%和19.4%。鑒于沒有模型超過30%的解決率,這些結(jié)果揭示了盡管情境學(xué)習(xí)對真實部署至關(guān)重要,但在當(dāng)前模型開發(fā)中仍然被嚴(yán)重忽視。

任務(wù)難度在不同情境類別之間存在顯著差異論文。四個情境類別對所有模型呈現(xiàn)出不同的難度水平。領(lǐng)域知識推理被證明是最易處理的,即使最佳模型也只達(dá)到25.3%的解決率,其中管理子類別相對容易,而法律咨詢則較難。模型在不同類別上表現(xiàn)出不同的偏好:一些模型在程序性任務(wù)執(zhí)行上表現(xiàn)最好,而另一些在規(guī)則系統(tǒng)應(yīng)用上表現(xiàn)更佳。特別值得注意的是,HY 2.0在規(guī)則系統(tǒng)應(yīng)用類別中的法律法規(guī)子類別上表現(xiàn)出特別的優(yōu)勢,達(dá)到36.6%,超過了Claude Opus 4.5和GPT 5.2。然而,所有模型在實證發(fā)現(xiàn)和模擬類別上都經(jīng)歷了顯著的性能下降,解決率降至約11%,比其他類別低約6%。這表明從實驗數(shù)據(jù)中歸納和應(yīng)用規(guī)律對當(dāng)前模型來說仍然是一個基本挑戰(zhàn)。

即使在單個情境類別內(nèi),子類別也表現(xiàn)出驚人的性能差異論文。在規(guī)則系統(tǒng)應(yīng)用中,法律法規(guī)子類別的解決率對所有模型都超過29%,GPT-5.1達(dá)到40%以上,而數(shù)學(xué)形式主義則困難得多,大多數(shù)模型低于15%。程序性任務(wù)執(zhí)行中也出現(xiàn)了類似的差異,工作流編排子類別的分?jǐn)?shù)大大超過指導(dǎo)性程序。從實證數(shù)據(jù)中進行歸納推理比演繹應(yīng)用表現(xiàn)出更大的難度。前三個類別要求模型通過演繹推理應(yīng)用明確提供的知識、規(guī)則和程序,而實證發(fā)現(xiàn)和模擬需要歸納推理,即從大量數(shù)據(jù)中發(fā)現(xiàn)潛在規(guī)律或在虛擬沙盒環(huán)境中推理和行動。模型在歸納任務(wù)上的表現(xiàn)明顯較差,平均解決率比演繹類別低約6%。

錯誤分析揭示關(guān)鍵瓶頸

研究團隊對失敗案例進行了深入的錯誤分析論文。情境忽略和情境誤用構(gòu)成了主要的失敗模式。這兩種錯誤類型合計占失敗的大多數(shù),情境誤用率對所有模型都超過60%。值得注意的是,情境忽略率與整體任務(wù)解決性能相關(guān):解決率較高的模型傾向于表現(xiàn)出較低的情境忽略率,而無論整體能力如何,情境誤用率在所有模型中都保持較高水平。這表明雖然更強的模型更好地關(guān)注相關(guān)情境信息,但即使是最有能力的模型如Claude-Opus-4.5也難以正確解釋和應(yīng)用提供的情境。

格式錯誤仍然是一個重要的失敗來源論文。除了情境錯誤,即使是頂級模型,格式錯誤率也保持在高水平。GPT-5.1的格式錯誤率超過35%,而Claude-Opus-4.5超過40%。這些失敗表明模型經(jīng)常違反情境中提供的明確格式指令,反映了指令遵循能力的局限性。此外,還有一小部分響應(yīng)包含拒絕。分析顯示,模型通常通過聲稱信息不足來回答問題而拒絕。由于CL-bench確保所有必要知識都存在于提供的情境中,這種拒絕源于理解失敗而非信息稀缺。

更高的推理努力通常改善情境學(xué)習(xí)論文。研究顯示,增加推理努力在大多數(shù)子類別上產(chǎn)生了一致的改進。例如,管理類別獲得了5.9%的提升,實驗數(shù)據(jù)也獲得了5.9%的提升。情境學(xué)習(xí)需要對新知識的深入理解和靈活應(yīng)用,延長的推理使模型能夠更徹底地處理復(fù)雜的情境信息。然而,這種好處并不適用于所有模型。詳細(xì)分析顯示,GPT 5.2在幾個子類別上從增加推理努力獲得的收益微不足道甚至是負(fù)面的,與GPT 5.1形成鮮明對比。

任務(wù)難度與情境長度相關(guān)論文。無論推理努力級別如何,所有模型都表現(xiàn)出隨著情境長度增加而一致的性能下降。這一趨勢在GPT-5.1、Claude-Opus-4.5、Kimi-K2、HY-2.0和Gemini-3-Pro等模型中都成立。Claude-Opus-4.5經(jīng)歷了最陡峭的下降,在0-15K和120K+情境長度之間解決率下降了20%以上。這些結(jié)果證實,處理和學(xué)習(xí)冗長情境仍然是當(dāng)前語言模型的瓶頸。

長情境推理和指令遵循是必要但不充分條件

與預(yù)期新模型版本會提高性能相反,GPT-5.2在整體準(zhǔn)確率上比GPT-5.1低5.6%論文。詳細(xì)分析揭示了GPT-5.2中兩種反復(fù)出現(xiàn)的失敗模式:當(dāng)在擴展情境上推理時,模型難以維持連貫的因果鏈,并且經(jīng)常違反提供材料中明確說明的約束。這種性能差距在幾乎所有子類別中都表現(xiàn)出來,在實驗數(shù)據(jù)類別中尤其明顯,其中GPT-5.1達(dá)到31.1%,而GPT-5.2為22.2%,在管理類別中差距達(dá)到9.6%。同樣,DeepSeek-V3.2和Doubao-1.6等較弱模型表現(xiàn)出三種系統(tǒng)性錯誤:未能遵守情境指令、未能正確學(xué)習(xí)和再現(xiàn)情境知識,以及隨著情境長度增加而失去信息追蹤。

這些觀察證實,長情境處理和指令遵循是有效情境學(xué)習(xí)的必要條件論文。然而,在現(xiàn)有長情境和指令遵循基準(zhǔn)上的強大性能并不保證在CL-bench上的成功,因為情境學(xué)習(xí)進一步要求模型內(nèi)化新知識并靈活地應(yīng)用它來解決復(fù)雜任務(wù)。這意味著即使模型在傳統(tǒng)的長文本基準(zhǔn)測試(主要評估檢索或閱讀理解)和指令遵循基準(zhǔn)測試上表現(xiàn)優(yōu)異,也不代表它們具備真正的情境學(xué)習(xí)能力。情境學(xué)習(xí)能力要求模型不僅能理解長文本和遵循指令,更要能從情境中提取新知識、建立新的認(rèn)知框架,并將這些新知識靈活應(yīng)用到未曾見過的問題中。

定性案例研究揭示深層問題

研究團隊選擇了跨越四個情境類別的16個案例進行深入分析,從GPT-5.1(高推理級別)、GPT-5.2(高推理級別)、Gemini-3-Pro(高推理級別)、Kimi-K2-Thinking和Doubao-1.6-Thinking等模型中提取論文。這些案例分析揭示了前沿語言模型在情境學(xué)習(xí)方面的細(xì)微失敗模式。

在規(guī)則系統(tǒng)應(yīng)用類別中,研究團隊發(fā)現(xiàn)模型在涉及新編程語言或游戲規(guī)則時,雖然能夠生成可運行的代碼或合理的策略,但經(jīng)常違反嚴(yán)格的格式要求或遺漏關(guān)鍵的機制細(xì)節(jié)論文。例如,Gemini-3-Pro在實現(xiàn)一個游戲規(guī)則系統(tǒng)時,能夠理解核心規(guī)則但未能包含戰(zhàn)斗系統(tǒng)、元素系統(tǒng)和怪物AI的特定機制細(xì)節(jié)。

這些定性分析與主要論文中提出的發(fā)現(xiàn)相呼應(yīng):前沿語言模型繼續(xù)忽視或誤用情境信息,導(dǎo)致錯誤的解決方案論文。此外,長情境推理和指令遵循的固有局限性進一步加劇了情境學(xué)習(xí)的失敗。綜合來看,這些結(jié)果表明語言模型需要開發(fā)更強的能力來有效地從新情境知識中學(xué)習(xí)并應(yīng)用,以增強其實際適用性。

未來研究方向與模型改進路徑

研究團隊提出了幾個有前景的方向來推進語言模型中的情境學(xué)習(xí)論文。第一個方向是使用情境感知數(shù)據(jù)進行訓(xùn)練。增強情境學(xué)習(xí)的直接方法是構(gòu)建包含預(yù)訓(xùn)練期間未見過的知識的專門訓(xùn)練數(shù)據(jù),迫使模型從提供的情境中學(xué)習(xí)。這種方法鼓勵模型更忠實地關(guān)注提供的情境,減少它們產(chǎn)生幻覺或默認(rèn)使用可能過時的預(yù)訓(xùn)練知識的傾向。這樣的訓(xùn)練數(shù)據(jù)可以通過系統(tǒng)地將綜合領(lǐng)域文檔與需要真正提取和應(yīng)用嵌入知識的任務(wù)配對來合成,從而加強對有效情境學(xué)習(xí)至關(guān)重要的神經(jīng)通路。

第二個方向是用于漸進情境掌握的課程學(xué)習(xí)論文。分析揭示模型在復(fù)雜情境上遇到困難,部分原因是長情境處理和指令遵循能力的局限性。課程學(xué)習(xí)方法提供了一條可行的途徑來解決這些挑戰(zhàn):訓(xùn)練可以被構(gòu)建為從更簡單的子任務(wù)逐步發(fā)展到越來越困難的任務(wù),而不是同時向模型呈現(xiàn)完整情境和復(fù)雜任務(wù)。這種漸進策略使模型首先掌握基本的情境理解,然后再處理需要整合多個知識組件或執(zhí)行冗長程序的任務(wù)。通過將復(fù)雜的情境學(xué)習(xí)分解為可管理的階段,模型可以逐漸建立處理真實應(yīng)用中全方位挑戰(zhàn)的能力。

第三個方向是用于綜合反饋的合成評估標(biāo)準(zhǔn)生成論文。細(xì)粒度的評估標(biāo)準(zhǔn)不僅在評估中起著關(guān)鍵作用,而且通過詳細(xì)的反饋信號在指導(dǎo)模型改進方面也發(fā)揮作用。然而,正如CL-bench的構(gòu)建過程所展示的,創(chuàng)建綜合評估標(biāo)準(zhǔn)需要大量的專家努力,限制了可擴展性。開發(fā)自動合成高質(zhì)量評估標(biāo)準(zhǔn)的方法,可能通過與人類驗證的迭代細(xì)化或利用強大的語言模型作為評估標(biāo)準(zhǔn)生成器,可以使詳細(xì)的評估標(biāo)準(zhǔn)更容易獲得。當(dāng)這些合成評估標(biāo)準(zhǔn)作為獎勵信號或驗證機制集成到訓(xùn)練管道中時,可能會通過為模型提供更豐富、多維度的性能反饋,顯著加速情境學(xué)習(xí)的進展。

第四個方向是用于情境利用的架構(gòu)創(chuàng)新論文。當(dāng)前的transformer架構(gòu)通過注意力機制處理情境,這可能不是最適合復(fù)雜情境所需的深度學(xué)習(xí)。未來的研究可以探索架構(gòu)修改,為存儲和檢索情境知識創(chuàng)建顯式記憶結(jié)構(gòu),通過多次處理通道實現(xiàn)情境理解的迭代細(xì)化,或為不同類型的情境信息提供專用通路。雖然這個基準(zhǔn)專注于評估現(xiàn)有模型,但理解限制情境學(xué)習(xí)的架構(gòu)瓶頸可以為下一代語言模型的設(shè)計提供信息。

至頂AI實驗室洞見

CL-bench的推出不僅揭示了當(dāng)前大語言模型的關(guān)鍵短板,更為整個AI社區(qū)指明了一個重要的研究方向論文。當(dāng)前的模型雖然在利用預(yù)訓(xùn)練知識方面表現(xiàn)卓越,但在從新情境中快速學(xué)習(xí)并應(yīng)用新知識方面還遠(yuǎn)遠(yuǎn)不夠。這種能力對于模型在真實世界中發(fā)揮實際作用至關(guān)重要,因為現(xiàn)實任務(wù)往往充滿了模型從未見過的新知識、新規(guī)則和新情境。克服當(dāng)前的情境學(xué)習(xí)瓶頸不僅僅是工程優(yōu)化問題,而是釋放模型智能質(zhì)的飛躍的關(guān)鍵。只有當(dāng)模型能夠像人類一樣快速內(nèi)化完全陌生的情境并精確應(yīng)用該知識解決問題時,人工智能才能真正超越知識庫的局限,演變?yōu)檎嬲耐评泶?。CL-bench為這一努力提供了關(guān)鍵的測試平臺,推動構(gòu)建下一代具有這一基礎(chǔ)能力的語言模型,使它們變得更加智能,并推進其在真實場景中的部署。

論文地址論文

END

本文來自至頂AI實驗室,一個專注于探索生成式AI前沿技術(shù)及其應(yīng)用的實驗室論文。致力于推動生成式AI在各個領(lǐng)域的創(chuàng)新與突破,挖掘其潛在的應(yīng)用場景,為企業(yè)和個人提供切實可行的解決方案。

Q&A

Q1:什么是情境學(xué)習(xí),它與傳統(tǒng)的上下文學(xué)習(xí)有什么區(qū)別?

A:情境學(xué)習(xí)是指模型從提供的復(fù)雜情境中獲取全新知識并應(yīng)用這些知識解決任務(wù)的能力論文。與傳統(tǒng)的上下文學(xué)習(xí)主要通過少量示例學(xué)習(xí)任務(wù)格式或淺層啟發(fā)式不同,情境學(xué)習(xí)強調(diào)真正理解和內(nèi)化新知識,這些知識可能是全新的領(lǐng)域概念、規(guī)則系統(tǒng)、復(fù)雜流程,甚至是從實驗數(shù)據(jù)中歸納出的規(guī)律。情境學(xué)習(xí)是人類天生具備但在當(dāng)前AI系統(tǒng)中被嚴(yán)重忽視的能力,它使模型能夠超越預(yù)訓(xùn)練知識進行推理,解決復(fù)雜的真實世界任務(wù)。

Q2:為什么當(dāng)前最先進的語言模型在CL-bench上的表現(xiàn)如此糟糕?

A:研究發(fā)現(xiàn)即使是表現(xiàn)最好的GPT-5.1也只能解決23.7%的任務(wù),平均解決率僅為17.2%論文。主要原因包括:模型頻繁忽視或誤用情境中提供的關(guān)鍵信息,違反明確的格式和約束指令,在長情境推理時難以維持連貫的因果鏈,以及在需要從數(shù)據(jù)中歸納規(guī)律時表現(xiàn)尤其困難。分析顯示,情境誤用率對所有模型都超過60%,格式錯誤率也保持在35-40%的高水平。這表明當(dāng)前模型的優(yōu)化方向主要集中在利用預(yù)訓(xùn)練知識進行推理,而非從新情境中學(xué)習(xí),導(dǎo)致它們在真實世界的復(fù)雜任務(wù)上遇到嚴(yán)重瓶頸。

Q3:CL-bench與現(xiàn)有的長文本基準(zhǔn)測試有什么本質(zhì)區(qū)別?

A:雖然CL-bench的情境平均長度達(dá)到10.4K tokens,最長可達(dá)65K tokens,但它與傳統(tǒng)長文本基準(zhǔn)測試有本質(zhì)區(qū)別論文?,F(xiàn)有長文本基準(zhǔn)主要評估檢索或閱讀理解能力,而CL-bench要求模型真正從情境中學(xué)習(xí)全新知識并靈活應(yīng)用。研究團隊通過三種方法確保知識的新穎性:虛構(gòu)創(chuàng)作全新內(nèi)容、修改現(xiàn)有知識、納入小眾新興內(nèi)容。無情境消融實驗顯示,最佳模型在沒有情境的情況下解決率不到1%,證明這些任務(wù)高度依賴情境學(xué)習(xí)而非預(yù)訓(xùn)練知識。CL-bench涵蓋四大類別18個子類別,從領(lǐng)域知識推理、規(guī)則系統(tǒng)應(yīng)用、程序執(zhí)行到從數(shù)據(jù)中歸納規(guī)律,全面評估模型的情境學(xué)習(xí)能力。

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E6%B3%84%E5%AF%86.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩