IT之家 1 月 15 日消息,科技媒體 Appleinsider 今天(1 月 15 日)發(fā)布博文,報道稱蘋果發(fā)表重磅研究論文,詳細介紹名為 DeepMMSearch-R1 的 AI 模型,重點優(yōu)化 AI 在復(fù)雜視覺場景下的搜索邏輯,用“裁剪”治愈 AI 幻覺論文。
針對現(xiàn)有 AI 模型在處理復(fù)雜視覺信息時常出現(xiàn)的“答非所問”或“漏看”問題,蘋果推出了 DeepMMSearch-R1 模型論文。傳統(tǒng)模型在面對“圖中左上角那只鳥的最高時速是多少”這類復(fù)合問題時,往往因無法聚焦局部細節(jié)而給出錯誤的平均數(shù)據(jù)。
DeepMMSearch-R1 引入了獨特的“視覺定位工具(Grounding Tool)”,能夠主動裁剪圖片以剔除干擾信息,先精準(zhǔn)識別微小目標(biāo),再進行針對性的網(wǎng)絡(luò)搜索驗證,從而確保答案的事實準(zhǔn)確性論文。
為確保模型僅在必要時才啟用裁剪功能以節(jié)省算力,研究人員采用了“監(jiān)督微調(diào)(SFT)+ 在線強化學(xué)習(xí)(RL)”的組合訓(xùn)練法論文。SFT 負責(zé)教會模型“不亂剪”,而 RL 則提升了工具調(diào)用的效率。
展開全文
測試數(shù)據(jù)顯示,該模型在處理需精準(zhǔn)圖文對應(yīng)的問題上,表現(xiàn)顯著優(yōu)于目前的 RAG(檢索增強生成)工作流及基于提示詞的搜索智能體,成功解決了 AI 在常識性事實檢索中的“偷懶”現(xiàn)象論文。
IT之家附上參考地址