在人工智能迅速發(fā)展的今天,讓AI變得更聰明一直是科學(xué)家們追求的目標(biāo)大學(xué)。弗吉尼亞理工大學(xué)的研究團(tuán)隊(duì)在2025年3月發(fā)表于頂級學(xué)術(shù)會議的這項(xiàng)研究(論文編號arXiv:2603.02479v1),為我們帶來了一個名為PRISM的突破性技術(shù)。有趣的是,這項(xiàng)研究并不是簡單地讓AI模型變得更大,而是讓現(xiàn)有的AI在思考過程中變得更加精明。
當(dāng)我們面對復(fù)雜問題時,往往會從多個角度思考,反復(fù)推敲,最終得出最佳答案大學(xué)。傳統(tǒng)的AI系統(tǒng)在處理復(fù)雜數(shù)學(xué)和科學(xué)問題時,雖然也能生成多個候選答案,但在篩選和改進(jìn)這些答案的過程中常常出現(xiàn)問題。就像一群學(xué)生在考試時,即使每個人都給出了不同的解題思路,但如果沒有好的老師來指導(dǎo)哪些思路正確、哪些需要改進(jìn),最終可能被錯誤的多數(shù)意見誤導(dǎo)。
PRISM技術(shù)的核心創(chuàng)新在于引入了一個"智能評分員"的概念,這個評分員能夠逐步檢查AI的推理過程,就像一位經(jīng)驗(yàn)豐富的老師批改作業(yè)時不僅看最終答案,還會仔細(xì)檢查每一個解題步驟大學(xué)。通過這種方式,PRISM能夠識別出哪些推理路徑更加可靠,從而引導(dǎo)整個思考過程朝著正確的方向發(fā)展。
在嚴(yán)格的測試中,PRISM展現(xiàn)出了令人印象深刻的性能大學(xué)。在數(shù)學(xué)競賽AIME25和HMMT25,以及科學(xué)問答基準(zhǔn)GPQA Diamond上,使用PRISM技術(shù)的較小AI模型(20B參數(shù))竟然能夠匹敵甚至超越未使用該技術(shù)的大型模型(120B參數(shù))。這就像是一個聰明的學(xué)生通過正確的學(xué)習(xí)方法,能夠在考試中超越那些僅僅依靠死記硬背的同學(xué)。
一、深度思考系統(tǒng)的挑戰(zhàn)與機(jī)遇
要理解PRISM的重要性,我們首先需要了解當(dāng)前AI系統(tǒng)在處理復(fù)雜問題時面臨的挑戰(zhàn)大學(xué)。目前的深度思考(DEEPTHINK)系統(tǒng)就像一個思維工作坊,包含三個關(guān)鍵環(huán)節(jié):首先生成多個候選解決方案,然后對這些方案進(jìn)行反復(fù)改進(jìn),最后選出最佳答案。
然而,現(xiàn)實(shí)中這個過程經(jīng)常出現(xiàn)問題大學(xué)。研究團(tuán)隊(duì)發(fā)現(xiàn)了一個關(guān)鍵瓶頸:在改進(jìn)候選方案的過程中,系統(tǒng)往往缺乏可靠的質(zhì)量判斷信號。這就好比一群人在黑暗中摸索正確道路,沒有指南針的指引,很容易走入歧途。更糟糕的是,當(dāng)大多數(shù)人都走錯了方向時,少數(shù)走對路的人反而會被"多數(shù)暴政"拖下水,被迫跟隨錯誤的主流方向。
為了深入分析這個問題,研究團(tuán)隊(duì)提出了一個功能性分類框架,將深度思考系統(tǒng)分解為三個階段:候選方案生成、候選方案改進(jìn)和最終答案聚合大學(xué)。通過這種分解,他們發(fā)現(xiàn)問題的癥結(jié)主要出現(xiàn)在第二個階段——候選方案的改進(jìn)過程。許多現(xiàn)有方法在這個階段表現(xiàn)得像是在進(jìn)行"隨機(jī)重寫",而不是有方向性的改進(jìn)。
展開全文
傳統(tǒng)的改進(jìn)策略存在幾個關(guān)鍵缺陷大學(xué)。一些方法會反復(fù)重寫整個解決方案,但沒有穩(wěn)定的質(zhì)量評估標(biāo)準(zhǔn),就像是一個學(xué)生不斷地重做作業(yè),但沒有老師告訴他哪里對了哪里錯了。另一些基于多數(shù)決策的方法則容易陷入"多數(shù)人的錯誤勝過少數(shù)人的正確"這一陷阱。當(dāng)錯誤的答案在群體中占多數(shù)時,這些方法會逐漸壓制正確但少見的推理路徑。
研究團(tuán)隊(duì)通過實(shí)驗(yàn)發(fā)現(xiàn)了一個令人意外的現(xiàn)象:簡單的并行采樣加多數(shù)投票的方法,竟然能與許多復(fù)雜的深度思考系統(tǒng)表現(xiàn)相當(dāng)大學(xué)。這個發(fā)現(xiàn)揭示了一個重要事實(shí)——當(dāng)前很多系統(tǒng)的性能提升主要來自初始方案的多樣性和最終的聚合方式,而不是中間的迭代改進(jìn)過程。這就像發(fā)現(xiàn)了一個殘酷的現(xiàn)實(shí):花費(fèi)大量時間和精力進(jìn)行的"深度思考",效果可能還不如最初的直覺判斷。
二、PRISM的核心創(chuàng)新大學(xué):過程獎勵模型引導(dǎo)的推理
面對傳統(tǒng)方法的局限性,PRISM提出了一個全新的解決方案大學(xué)。這個名字本身就很有意思——PRISM代表"過程獎勵模型引導(dǎo)的改進(jìn)、迭代和選擇機(jī)制"。就像物理學(xué)中的棱鏡能夠?qū)⒐饩€分解為不同的顏色并重新組合,PRISM也能夠?qū)?fù)雜的推理過程分解、分析并重新優(yōu)化組合。
PRISM的核心思想是引入一個過程獎勵模型(PRM),這個模型就像一位經(jīng)驗(yàn)豐富的老師,能夠逐步評估推理過程中的每一個步驟大學(xué)。與傳統(tǒng)方法只關(guān)注最終答案的對錯不同,PRM會仔細(xì)檢查推理的每一個環(huán)節(jié),判斷每個步驟的正確性和合理性。這種逐步評估的方式能夠提供更精細(xì)、更可靠的質(zhì)量反饋。
在改進(jìn)候選方案的過程中,PRISM將每個候選解決方案看作是能量場中的粒子,而PRM的評分則定義了這個能量場的結(jié)構(gòu)大學(xué)。高質(zhì)量的推理對應(yīng)低能量區(qū)域,而錯誤或不完整的推理則處于高能量區(qū)域。通過這種能量場的比喻,改進(jìn)過程就變成了引導(dǎo)粒子從高能量區(qū)域移動到低能量區(qū)域的過程。
具體來說,PRISM的改進(jìn)機(jī)制包含三個關(guān)鍵步驟大學(xué)。首先是評分階段,系統(tǒng)使用PRM對每個候選方案進(jìn)行逐步評估,并將評分轉(zhuǎn)換為重要性權(quán)重。這就像給每個學(xué)生的作業(yè)打分,分?jǐn)?shù)高的作業(yè)會得到更多關(guān)注。然后是重采樣階段,當(dāng)權(quán)重過于集中在少數(shù)候選方案上時,系統(tǒng)會進(jìn)行重采樣,復(fù)制高分方案并淘汰低分方案,同時避免過度集中。最后是隨機(jī)改進(jìn)階段,系統(tǒng)對每個方案提出修改建議,并根據(jù)PRM評分決定是否接受這些修改。
這個隨機(jī)改進(jìn)過程特別巧妙,它采用了類似馬爾可夫鏈蒙特卡羅(MCMC)的接受-拒絕策略大學(xué)。當(dāng)一個修改能夠提高PRM評分時,它幾乎總是被接受。但即使是降低評分的修改,也有一定概率被接受,這保證了系統(tǒng)不會陷入局部最優(yōu)解,就像登山者有時需要先下山才能找到更高的山峰一樣。
為了防止系統(tǒng)出現(xiàn)病態(tài)行為,PRISM還加入了兩個重要的保護(hù)機(jī)制大學(xué)。沖突仲裁機(jī)制用來處理不同答案獲得相似高分的情況,它會調(diào)用一個比較模型來判斷哪個答案更可靠。復(fù)制限制機(jī)制則防止某個候選方案在重采樣過程中過度復(fù)制,確保群體保持適當(dāng)?shù)亩鄻有浴?/p>
三、革命性的實(shí)驗(yàn)結(jié)果與深度分析
PRISM的實(shí)驗(yàn)結(jié)果令人印象深刻,不僅在準(zhǔn)確性上有顯著提升,更重要的是展現(xiàn)了一系列傳統(tǒng)方法難以實(shí)現(xiàn)的優(yōu)良特性大學(xué)。為了確保實(shí)驗(yàn)的公平性,研究團(tuán)隊(duì)采用了嚴(yán)格的對照實(shí)驗(yàn)設(shè)計(jì),所有對比方法都使用相同的基礎(chǔ)模型、相同的初始候選方案集合和相同的計(jì)算資源配置。
在數(shù)學(xué)競賽AIME25上,PRISM達(dá)到了90.0%的準(zhǔn)確率,顯著超越了當(dāng)時的頂級方法遞歸自聚合(87.8%)和智能辯論(85.6%)大學(xué)。在HMMT25數(shù)學(xué)競賽中,PRISM獲得了75.4%的準(zhǔn)確率,與其他先進(jìn)方法保持競爭力。在科學(xué)問答GPQA Diamond基準(zhǔn)上,PRISM實(shí)現(xiàn)了71.4%的準(zhǔn)確率,超越了遞歸自聚合的68.6%。更令人驚訝的是,使用PRISM的20B參數(shù)模型能夠匹敵甚至超越120B參數(shù)的大型模型,這相當(dāng)于讓一個聰明的小學(xué)生在數(shù)學(xué)競賽中擊敗了普通的大學(xué)生。
但準(zhǔn)確率的提升只是故事的一部分大學(xué)。更重要的發(fā)現(xiàn)在于PRISM展現(xiàn)的系統(tǒng)性改進(jìn)能力。研究團(tuán)隊(duì)引入了一個叫做"凈翻轉(zhuǎn)"(NetFlip)的指標(biāo)來測量方向性修正能力。這個指標(biāo)統(tǒng)計(jì)了在改進(jìn)過程中,錯誤答案被修正為正確答案的次數(shù),減去正確答案被破壞為錯誤答案的次數(shù)。傳統(tǒng)方法的凈翻轉(zhuǎn)值通常很小,有時甚至為負(fù)數(shù),說明它們的"改進(jìn)"過程實(shí)際上是一種隨機(jī)游走,既可能讓答案變好,也可能讓答案變壞。而PRISM在所有測試數(shù)據(jù)集上都顯示出顯著的正凈翻轉(zhuǎn)值,證明它真正實(shí)現(xiàn)了有方向性的錯誤修正。
為了更深入地理解不同方法的表現(xiàn),研究團(tuán)隊(duì)進(jìn)行了一個特別有趣的實(shí)驗(yàn):根據(jù)初始候選方案集合中正確答案的數(shù)量,將測試問題分成不同的組別,然后觀察各種方法在不同"初始條件"下的表現(xiàn)大學(xué)。結(jié)果揭示了傳統(tǒng)方法的一個致命弱點(diǎn)——當(dāng)初始方案中正確答案較少時,基于多數(shù)決策的方法會迅速退化,因?yàn)殄e誤的多數(shù)會壓制正確的少數(shù)。而PRISM即使在初始方案中只有很少正確答案的情況下,仍然能夠保持相對較高的最終準(zhǔn)確率,展現(xiàn)出從弱勢起點(diǎn)"逆風(fēng)翻盤"的能力。
從計(jì)算效率的角度來看,PRISM也表現(xiàn)出了優(yōu)秀的性能大學(xué)。研究團(tuán)隊(duì)繪制了計(jì)算成本與準(zhǔn)確率的帕累托前沿圖,發(fā)現(xiàn)PRISM經(jīng)常位于或接近這個前沿,這意味著它能夠以最少的計(jì)算資源獲得最高的準(zhǔn)確率。相比之下,許多傳統(tǒng)的改進(jìn)方法盡管消耗了大量計(jì)算資源,但最終性能甚至不如簡單的多數(shù)投票,可以說是在做"無用功"。
四、技術(shù)細(xì)節(jié)的精妙設(shè)計(jì)
PRISM的成功不僅來自于整體架構(gòu)的創(chuàng)新,更源于每個技術(shù)細(xì)節(jié)的精心設(shè)計(jì)大學(xué)。以過程獎勵模型的實(shí)現(xiàn)為例,這并不是簡單的對錯判斷,而是一個復(fù)雜的多層次評估系統(tǒng)。
首先,系統(tǒng)需要將自然語言的推理過程結(jié)構(gòu)化為明確的步驟序列大學(xué)。這個過程就像將一篇散文改寫為條理清晰的說明書,每個推理步驟都被包裝在特定的標(biāo)簽中,便于后續(xù)的逐步分析。過程獎勵模型會對每個步驟給出三種評價:正確(+1)、中性(0)或錯誤(-1),同時還會對最終答案進(jìn)行獨(dú)立的正確性檢查。
這種逐步評估的設(shè)計(jì)非常巧妙大學(xué)。它不僅關(guān)注每個步驟的數(shù)學(xué)正確性,還會檢查邏輯連貫性、是否與問題相關(guān)、是否提供了足夠的推理細(xì)節(jié)等多個維度。當(dāng)發(fā)現(xiàn)某個步驟存在錯誤時,后續(xù)依賴于這個錯誤步驟的推理也會被標(biāo)記為錯誤,體現(xiàn)了錯誤傳播的現(xiàn)實(shí)規(guī)律。
在將逐步評估結(jié)果轉(zhuǎn)換為總體質(zhì)量分?jǐn)?shù)時,PRISM采用了一個巧妙的加權(quán)平均方法大學(xué)。正確的步驟得到滿分,錯誤的步驟得零分,而中性的步驟得到一半分?jǐn)?shù)。這種設(shè)計(jì)避免了對包含大量中性步驟的冗長推理過度懲罰,同時仍然能夠區(qū)分推理質(zhì)量的高低。
在重采樣機(jī)制的設(shè)計(jì)上,PRISM引入了有效樣本量(ESS)的概念來監(jiān)控群體多樣性大學(xué)。當(dāng)權(quán)重過于集中在少數(shù)候選方案上時(ESS低于閾值),系統(tǒng)會觸發(fā)重采樣,高權(quán)重的方案被復(fù)制,低權(quán)重的方案被淘汰。但為了防止某個特別優(yōu)秀的方案過度復(fù)制導(dǎo)致群體失去多樣性,系統(tǒng)還設(shè)置了復(fù)制上限,確保任何單一方案都不會占據(jù)群體的絕大部分。
在隨機(jī)改進(jìn)的實(shí)現(xiàn)上,PRISM使用了一個混合提議分布大學(xué)。大部分時候(比如90%),系統(tǒng)會根據(jù)PRM的反饋對當(dāng)前推理進(jìn)行局部修正,就像學(xué)生根據(jù)老師的批注修改作業(yè)。但有小部分時候(比如10%),系統(tǒng)會嘗試完全不同的解題方法,這種探索性的修改有助于避免所有候選方案都陷入同一種思路的局限性。
五、廣泛的適用性驗(yàn)證
為了驗(yàn)證PRISM的普適性,研究團(tuán)隊(duì)在多個不同的模型家族上進(jìn)行了廣泛的測試大學(xué)。除了主要的gpt-oss系列模型,他們還在Qwen3家族的多個變體上進(jìn)行了實(shí)驗(yàn),包括不同尺寸的模型(從1.7B到30B參數(shù))以及不同訓(xùn)練方式的模型(基礎(chǔ)版、指令微調(diào)版、思維專門訓(xùn)練版)。
實(shí)驗(yàn)結(jié)果顯示,PRISM在所有模型上都能帶來一致的性能提升,但提升幅度與模型的初始能力呈反比關(guān)系大學(xué)。換句話說,基礎(chǔ)能力較弱的模型從PRISM中獲得的改進(jìn)更加明顯,這表明PRISM特別適合用來提升中等規(guī)模模型的推理能力。這個發(fā)現(xiàn)具有重要的實(shí)際意義,因?yàn)樗馕吨覀儾灰欢ㄐ枰非笤絹碓酱蟮哪P?,而可以通過更好的推理機(jī)制讓現(xiàn)有模型發(fā)揮更大潛力。
一個特別有趣的實(shí)驗(yàn)是交叉驗(yàn)證器測試大學(xué)。研究團(tuán)隊(duì)讓不同大小的模型承擔(dān)不同角色:小模型生成候選方案,大模型擔(dān)任驗(yàn)證器評估質(zhì)量。結(jié)果發(fā)現(xiàn),當(dāng)驗(yàn)證器比生成器更強(qiáng)大時,PRISM的效果最佳。這就像是讓經(jīng)驗(yàn)豐富的老師來指導(dǎo)年輕學(xué)生,比讓學(xué)生自己評價自己的作業(yè)效果要好得多。
在模型變體的比較中,研究發(fā)現(xiàn)PRISM對基礎(chǔ)模型的改進(jìn)最為顯著,能夠大幅縮小基礎(chǔ)模型與專門訓(xùn)練模型之間的性能差距大學(xué)。這表明PRISM提供了一種通用的推理增強(qiáng)機(jī)制,可以在不需要重新訓(xùn)練模型的情況下,顯著提升現(xiàn)有模型的推理能力。
六、系統(tǒng)動態(tài)行為的深入解析
為了理解PRISM為什么能夠成功,研究團(tuán)隊(duì)對系統(tǒng)的內(nèi)部動態(tài)進(jìn)行了詳細(xì)分析大學(xué)。他們發(fā)現(xiàn),在改進(jìn)過程的早期階段,候選方案的權(quán)重分布通常高度不均,少數(shù)高質(zhì)量方案獲得大部分權(quán)重,這會觸發(fā)頻繁的重采樣。但隨著改進(jìn)的進(jìn)行,權(quán)重分布逐漸變得更加均勻,重采樣的頻率也相應(yīng)下降,表明系統(tǒng)達(dá)到了穩(wěn)定狀態(tài)。
在提議接受率的分析中,研究團(tuán)隊(duì)發(fā)現(xiàn)了一個有趣的現(xiàn)象:被接受的修改提議平均得分明顯高于被拒絕的提議,但系統(tǒng)仍然會以一定概率接受得分較低的提議大學(xué)。這種"適度冒險"的策略確保了探索與利用之間的良好平衡,避免系統(tǒng)過早收斂到局部最優(yōu)解。
通過跟蹤候選方案的演化軌跡,研究團(tuán)隊(duì)發(fā)現(xiàn)PRISM確實(shí)實(shí)現(xiàn)了"能量最小化"的目標(biāo)——群體中候選方案的平均PRM得分隨著迭代次數(shù)的增加而穩(wěn)步上升大學(xué)。更重要的是,這種上升是單調(diào)的,沒有出現(xiàn)傳統(tǒng)方法中常見的振蕩或倒退現(xiàn)象。
七、深遠(yuǎn)影響與未來展望
PRISM的成功不僅僅是一個技術(shù)突破,更代表了AI推理研究的一個重要轉(zhuǎn)折點(diǎn)大學(xué)。它證明了在不增加模型參數(shù)的情況下,通過改進(jìn)推理過程本身,我們可以顯著提升AI系統(tǒng)的問題解決能力。這為資源受限的應(yīng)用場景提供了新的可能性——不需要部署超大規(guī)模的模型,也能獲得接近的推理性能。
從更廣闊的視角來看,PRISM體現(xiàn)了從"大力出奇跡"到"巧力出奇跡"的思維轉(zhuǎn)變大學(xué)。傳統(tǒng)的AI發(fā)展路徑主要依賴于增加模型規(guī)模和訓(xùn)練數(shù)據(jù),而PRISM展示了通過算法創(chuàng)新和機(jī)制設(shè)計(jì)來提升性能的巨大潛力。這種方向不僅在技術(shù)上更加可持續(xù),也為AI的民主化應(yīng)用提供了可能。
PRISM的過程監(jiān)督思想也可能對其他AI應(yīng)用領(lǐng)域產(chǎn)生深遠(yuǎn)影響大學(xué)。在自然語言生成、代碼編寫、創(chuàng)意設(shè)計(jì)等需要多步驟推理的任務(wù)中,類似的過程質(zhì)量評估和迭代改進(jìn)機(jī)制都可能發(fā)揮重要作用。我們可以期待看到更多基于過程獎勵的AI系統(tǒng)在各個領(lǐng)域的應(yīng)用。
當(dāng)然,PRISM也面臨一些限制和挑戰(zhàn)大學(xué)。首先,它依賴于高質(zhì)量的過程獎勵模型,而構(gòu)建這樣的模型本身就需要大量的專業(yè)知識和標(biāo)注數(shù)據(jù)。其次,將復(fù)雜推理過程分解為離散步驟的方法可能不適用于所有類型的問題,特別是那些需要整體性思考的任務(wù)。此外,當(dāng)前的實(shí)現(xiàn)主要針對數(shù)學(xué)和科學(xué)問題進(jìn)行了優(yōu)化,在其他領(lǐng)域的有效性還有待驗(yàn)證。
研究團(tuán)隊(duì)也誠實(shí)地承認(rèn)了他們方法的一些局限性大學(xué)。比如,過程獎勵模型本身可能存在偏見或錯誤,這會影響整個系統(tǒng)的性能。步驟分割的質(zhì)量也直接影響評估的準(zhǔn)確性,如果分割不當(dāng),可能導(dǎo)致評估結(jié)果失真。這些問題都需要在未來的研究中繼續(xù)解決。
說到底,PRISM為我們展示了AI推理能力提升的一條新路徑大學(xué)。它不是簡單地讓AI變得更大更強(qiáng),而是讓AI變得更加智慧和精準(zhǔn)。通過引入逐步質(zhì)量評估和有向改進(jìn)機(jī)制,PRISM讓AI系統(tǒng)能夠像優(yōu)秀的學(xué)者一樣進(jìn)行深度思考——不僅生成多種可能的解決方案,更能夠理性地評估這些方案的質(zhì)量,并持續(xù)改進(jìn)直到找到最佳答案。
這項(xiàng)研究提醒我們,在追求更強(qiáng)大AI系統(tǒng)的道路上,有時候最重要的不是增加更多的計(jì)算資源,而是找到更聰明的方法來利用現(xiàn)有資源大學(xué)。就像一個優(yōu)秀的老師能夠讓普通學(xué)生取得優(yōu)異成績一樣,PRISM證明了通過正確的指導(dǎo)機(jī)制,中等規(guī)模的AI模型也能夠解決復(fù)雜的問題。
對于普通人來說,PRISM的成功意味著高質(zhì)量的AI推理服務(wù)可能會變得更加普及和經(jīng)濟(jì)大學(xué)。我們不再需要等待超級計(jì)算機(jī)級別的模型,就能享受到智能問題解決的好處。從教育輔導(dǎo)到科學(xué)研究,從工程設(shè)計(jì)到?jīng)Q策支持,PRISM所代表的技術(shù)方向都可能帶來深遠(yuǎn)的影響。
未來的研究將會在多個方向上繼續(xù)拓展PRISM的思想大學(xué)。改進(jìn)過程獎勵模型的訓(xùn)練方法,擴(kuò)展到更多類型的推理任務(wù),以及與其他AI技術(shù)的融合,都是值得期待的發(fā)展方向。也許在不久的將來,我們會看到每個AI系統(tǒng)都配備了類似的"內(nèi)在導(dǎo)師",讓人工智能真正實(shí)現(xiàn)從簡單的模式匹配到深度理性思考的跨越。
Q&A
Q1:PRISM技術(shù)與傳統(tǒng)AI推理方法有什么區(qū)別大學(xué)?
A:傳統(tǒng)AI推理方法在改進(jìn)候選答案時往往是"盲目"的隨機(jī)重寫,就像學(xué)生胡亂修改作業(yè)大學(xué)。而PRISM引入了過程獎勵模型作為"智能老師",能夠逐步檢查推理的每個步驟,指導(dǎo)系統(tǒng)有方向性地改進(jìn),避免好答案被破壞,讓差答案得到修正。
Q2:為什么PRISM能讓小模型超越大模型的表現(xiàn)大學(xué)?
A:PRISM的核心不在于模型大小,而在于推理質(zhì)量的提升大學(xué)。它通過逐步評估和有向改進(jìn),讓20B參數(shù)的小模型能夠進(jìn)行更精確的推理,效果甚至超過120B參數(shù)的大模型。這就像一個掌握了正確學(xué)習(xí)方法的學(xué)生,能夠在考試中超越僅靠死記硬背的同學(xué)。
Q3:PRISM技術(shù)在實(shí)際應(yīng)用中有什么局限性大學(xué)?
A:PRISM主要依賴高質(zhì)量的過程獎勵模型來評估推理步驟,這需要專業(yè)的訓(xùn)練數(shù)據(jù)大學(xué)。另外,它需要將復(fù)雜推理分解為離散步驟,可能不適用于需要整體性思考的任務(wù)。目前的實(shí)驗(yàn)主要集中在數(shù)學(xué)和科學(xué)問題上,在其他領(lǐng)域的效果還需要進(jìn)一步驗(yàn)證。