Nature和Science同時報(bào)道了一篇論文,試圖根治AI幻覺

Nature和Science同時報(bào)道了一篇論文,試圖根治AI幻覺

新智元報(bào)道

編輯論文:艾倫

【新智元導(dǎo)讀】《Nature》重磅:80 億參數(shù)小模型 OpenScholar 終結(jié)「參數(shù)崇拜」!它摒棄死記硬背,憑「檢索+自查」根治幻覺,在科學(xué)綜述任務(wù)上表現(xiàn)超越行業(yè)頂尖巨頭論文。

昨天,一篇剛剛登上《Nature》正刊的論文,開源了名為 OpenScholar 的模型,也同時被 Science 報(bào)道了論文。

Nature和Science同時報(bào)道了一篇論文,試圖根治AI幻覺

它只有 8B 參數(shù),但正是這個小模型,在科學(xué)文獻(xiàn)綜述任務(wù)上,擊敗了旗艦?zāi)P?strong>論文。

這是一場范式轉(zhuǎn)移的信號:在嚴(yán)謹(jǐn)?shù)目茖W(xué)探索中,全知全能的「黑盒」記憶已成過去,精準(zhǔn)調(diào)用的「外掛」知識庫才是未來論文

Nature和Science同時報(bào)道了一篇論文,試圖根治AI幻覺

展開全文

告別幻覺

彼時,科研人員對通用大模型愛恨交織論文

恨意主要源于那個致命缺陷——幻覺論文。

當(dāng)時的數(shù)據(jù)令人觸目驚心:當(dāng)被要求回答生物醫(yī)學(xué)等領(lǐng)域的專業(yè)問題時,AI 偽造引用的比例一度高達(dá) 90%論文。

它能自信地編造出不存在的論文標(biāo)題、作者甚至頁碼論文。對于需要字斟句酌的科學(xué)研究,這種不可靠性是毀滅性的。

OpenScholar 的出現(xiàn),正是為了修正這一偏差論文。

由華盛頓大學(xué)和艾倫人工智能研究所(Ai2)主導(dǎo)開發(fā)的這套系統(tǒng),本質(zhì)上不再試圖讓模型「記住」所有知識,而是教會模型如何像人類學(xué)者一樣去「查資料」論文

OpenScholar 并不依賴參數(shù)中的模糊記憶,它外接了一個包含 4500 萬篇開放獲取論文的巨型數(shù)據(jù)庫論文

當(dāng)你提出一個問題時論文,它不會直接生成答案,而是執(zhí)行一套嚴(yán)密的流程:

檢索:先在 4500 萬篇文獻(xiàn)中快速撈取最相關(guān)的片段論文

重排序:利用交叉編碼器對片段進(jìn)行精細(xì)篩選,去偽存真論文。

生成與反饋:這是最關(guān)鍵的一步論文。模型生成答案草稿后,會進(jìn)行自我審查——「這句話有證據(jù)支持嗎?」如果發(fā)現(xiàn)證據(jù)不足,它會發(fā)起第二輪、第三輪檢索,直到每一條論述都有確鑿的文獻(xiàn)背書。

檢索:先在 4500 萬篇文獻(xiàn)中快速撈取最相關(guān)的片段論文。

重排序:利用交叉編碼器對片段進(jìn)行精細(xì)篩選,去偽存真論文。

生成與反饋:這是最關(guān)鍵的一步論文。模型生成答案草稿后,會進(jìn)行自我審查——「這句話有證據(jù)支持嗎?」如果發(fā)現(xiàn)證據(jù)不足,它會發(fā)起第二輪、第三輪檢索,直到每一條論述都有確鑿的文獻(xiàn)背書。

結(jié)果是降維打擊式的論文。在涵蓋計(jì)算機(jī)科學(xué)、物理學(xué)等領(lǐng)域的 ScholarQABench 基準(zhǔn)測試中,OpenScholar-8B 的正確率不僅超越了當(dāng)時的旗艦?zāi)P?,更將推理成本降低了兩個數(shù)量級(約 0.003 美元/次)。

它證明了在特定領(lǐng)域,一個帶了「圖書館」的本科生,比一個赤手空拳卻愛產(chǎn)生幻覺的博士生更可靠論文。

Nature和Science同時報(bào)道了一篇論文,試圖根治AI幻覺

DR Tulu

從「回答問題」到「深度研究」

如果說 OpenScholar 解決的是「準(zhǔn)確性」問題,那么素材中提及的后續(xù)迭代版本——DR Tulu(Deep Research Tulu),則是在向「深度」進(jìn)軍論文。

科研往往不是簡單的一問一答,而是漫長的探索與綜合論文

2025年11月發(fā)布的 DR Tulu,針對的是長篇幅、多維度的「深度研究」任務(wù)論文。

它的核心突破在于引入了「演化評分規(guī)則的強(qiáng)化學(xué)習(xí)」(RLER, Reinforcement Learning with Evolving Rubrics)論文。

在以往的訓(xùn)練中,AI 很難判斷一篇長達(dá)數(shù)千字的文獻(xiàn)綜述寫得好不好論文。

DR Tulu 并不依賴固定的評分標(biāo)準(zhǔn),而是讓模型在搜索和研究的過程中,動態(tài)生成針對當(dāng)前問題的評分細(xì)則論文。

它既學(xué)習(xí)「什么是好的研究策略」(如挖掘冷門數(shù)據(jù)源),也學(xué)習(xí)「什么是壞的行為」(如為了湊字?jǐn)?shù)而堆砌引用)論文。

這種訓(xùn)練讓 DR Tulu 具備了更強(qiáng)的規(guī)劃能力論文。

面對復(fù)雜的科學(xué)命題,它能像成熟的研究員一樣,先制定大綱,再分頭檢索,最后綜合多源信息撰寫長篇報(bào)告論文

在最新的測試中,DR Tulu-8B 的表現(xiàn)已經(jīng)足以比肩甚至超越當(dāng)時的旗艦專有模型,且代碼和權(quán)重完全開源論文。

Nature和Science同時報(bào)道了一篇論文,試圖根治AI幻覺

Nature和Science同時報(bào)道了一篇論文,試圖根治AI幻覺

幕后推手:Akari Asai

這一系列顛覆性工作的核心人物,是即將于2026年秋季入職卡內(nèi)基梅隆大學(xué)(CMU)的 Akari Asai(淺井明里)論文

Nature和Science同時報(bào)道了一篇論文,試圖根治AI幻覺

這位從東京大學(xué)本科畢業(yè)、在華盛頓大學(xué)獲得博士學(xué)位的年輕學(xué)者,是近年來「檢索增強(qiáng)生成」(RAG)領(lǐng)域最活躍的聲音之一論文

早在 Meta AI 實(shí)習(xí)期間,她就致力于解決大模型的知識瓶頸問題論文。

Akari Asai 的研究哲學(xué)非常清晰:不要試圖把世界裝進(jìn)模型里,要讓模型學(xué)會擁抱世界論文。

她主導(dǎo)的 OpenScholar 和 DR Tulu 項(xiàng)目,不僅是技術(shù)上的精進(jìn),更帶有一種強(qiáng)烈的「民主化」色彩論文。

通過開源高性能的小模型和檢索架構(gòu),她正在打破只有科技巨頭才能壟斷頂級科研 AI 工具的局面,讓全球資源匱乏地區(qū)的科學(xué)家也能擁有一位不知疲倦的「超級科研助理」論文。

Nature和Science同時報(bào)道了一篇論文,試圖根治AI幻覺

結(jié)語

科學(xué)的本質(zhì)不是記憶,而是發(fā)現(xiàn)論文。

當(dāng)我們將 AI 從死記硬背的參數(shù)競賽中解放出來,賦予其查閱、驗(yàn)證和反思的能力時,我們創(chuàng)造的不再是一個僅僅會聊天的機(jī)器,而是一把能幫人類在浩瀚知識海洋中披荊斬棘的利刃論文。

未來的科研,或許不再取決于你讀過多少論文,而在于你如何駕馭那位讀過所有論文的 AI 助手論文。

參考資料論文

秒追ASI

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E7%8E%8B%E8%88%88%E5%85%A8.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩