谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

一水 發(fā)自 凹非寺

量子位 | 公眾號(hào) QbitAI

效果好到刷屏的Nano Banana論文,學(xué)術(shù)特供版熱乎出爐!

名字就是如此直觀——PaperBanana,給你每天都在頭痛的Paper用上Banana論文。(試圖押韻skr)

而且這一次是由谷歌北大強(qiáng)強(qiáng)聯(lián)手打造論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

知道你想馬上看效果,別急,三個(gè)官方案例這就給大家搬上桌論文

在相同輸入下論文,人類繪制、原版Nano Banana與PaperBanana生成的論文插圖對(duì)比如下:

綜合評(píng)估顯示,PaperBanana在美觀性、簡(jiǎn)潔性與邏輯清晰度上均全面優(yōu)于原版論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

展開全文

而且它還能直接優(yōu)化人工繪制的插圖,瞅瞅右邊,是不是高級(jí)感一下就上去了論文。

此外,由于PaperBanana還提供代碼出圖功能 (即利用Gemini-3-Pro自動(dòng)生成并執(zhí)行Python可視化代碼出圖),所以它還能用來(lái)生成需要數(shù)值100%精準(zhǔn)的各種圖表論文

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

好好好,既能拿捏高級(jí)感,又不忘精準(zhǔn)度,應(yīng)該沒有學(xué)術(shù)人不愛吧~

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

論文作者表示,PaperBanana為全自動(dòng)生成可用于出版的插圖鋪平了道路論文。

我們希望這個(gè)框架能成為連接復(fù)雜科學(xué)概念與高效視覺敘事的橋梁,賦能每一位研究者,用專業(yè)級(jí)的視覺語(yǔ)言清晰呈現(xiàn)其發(fā)現(xiàn)論文。

我們希望這個(gè)框架能成為連接復(fù)雜科學(xué)概念與高效視覺敘事的橋梁,賦能每一位研究者,用專業(yè)級(jí)的視覺語(yǔ)言清晰呈現(xiàn)其發(fā)現(xiàn)論文。

而在看到其效果之后,一眾網(wǎng)友也紛紛感嘆“學(xué)術(shù)插圖”這個(gè)老大難總算是要被攻克了論文。

想想以前的日子論文,真真是要落淚了~

研究人員花費(fèi)4個(gè)小時(shí)在Figma中繪制一張圖,簡(jiǎn)直令人難以置信論文

研究人員花費(fèi)4個(gè)小時(shí)在Figma中繪制一張圖,簡(jiǎn)直令人難以置信論文。

那么論文,學(xué)術(shù)版PaperBanana是如何煉造的呢?

一個(gè)不夠論文,那就5個(gè)!

用一個(gè)模型生圖怎么夠,現(xiàn)在都是多智能體齊上陣了論文。

沒錯(cuò),PaperBanana背后就是5個(gè)分工明確的智能體在起作用論文。

Retriever Agent(檢索智能體):從頂會(huì)論文庫(kù)中,找到與你要畫的圖領(lǐng)域、結(jié)構(gòu)最相似的參考案例論文。

Planner Agent(規(guī)劃智能體):把論文文字描述,轉(zhuǎn)化為包含所有模塊、邏輯的詳細(xì)繪圖說明書論文

Stylist Agent(風(fēng)格智能體):總結(jié)學(xué)術(shù)審美規(guī)范,給說明書加上配色、排版等“美顏”標(biāo)準(zhǔn)論文。

Visualizer Agent(可視化智能體):根據(jù)說明書,直接畫圖或?qū)懘a出圖,產(chǎn)出初稿論文

Critic Agent(批判智能體):檢查圖的對(duì)錯(cuò)與美觀度,提出修改意見,循環(huán)迭代3輪優(yōu)化論文。

Retriever Agent(檢索智能體):從頂會(huì)論文庫(kù)中,找到與你要畫的圖領(lǐng)域、結(jié)構(gòu)最相似的參考案例論文

Planner Agent(規(guī)劃智能體):把論文文字描述,轉(zhuǎn)化為包含所有模塊、邏輯的詳細(xì)繪圖說明書論文

Stylist Agent(風(fēng)格智能體):總結(jié)學(xué)術(shù)審美規(guī)范,給說明書加上配色、排版等“美顏”標(biāo)準(zhǔn)論文

Visualizer Agent(可視化智能體):根據(jù)說明書,直接畫圖或?qū)懘a出圖,產(chǎn)出初稿論文。

Critic Agent(批判智能體):檢查圖的對(duì)錯(cuò)與美觀度,提出修改意見,循環(huán)迭代3輪優(yōu)化論文。

下面這張圖清晰展示了它們的工作流程論文

劃重點(diǎn),連這張圖也是PaperBanana自己生成的論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

論文作者表示,這一過程參考了人類制作論文插圖的流程論文

以制作一個(gè)模型架構(gòu)圖為例,通常研究人員會(huì)先去看看頂會(huì)里類似工作的圖是怎么畫的,找找靈感和規(guī)范論文。

這一步就對(duì)應(yīng)了檢索智能體的工作論文。

然后就需要根據(jù)參考來(lái)規(guī)劃自己的圖該怎么畫,“我的方法有幾個(gè)關(guān)鍵模塊?”、“數(shù)據(jù)流和邏輯順序是怎樣的?”,在想清所有關(guān)鍵問題后,腦子里大概就有一幅架構(gòu)藍(lán)圖了論文。

而到這一步還不是真正動(dòng)筆的時(shí)候,因?yàn)檫€需要結(jié)合自己的圖以及之前看過的“頂會(huì)審美”標(biāo)準(zhǔn),來(lái)給藍(lán)圖加點(diǎn)設(shè)計(jì)感論文。

有了這兩樣?xùn)|西(藍(lán)圖+審美),現(xiàn)在就可以真正出圖了論文。

并且出完之后,研究人員往往還需要檢查一番,以確保出圖正確無(wú)誤論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

怎么樣?是不是一環(huán)扣一環(huán)、且全都一一對(duì)應(yīng)上了論文。

而在了解完P(guān)aperBanana的工作方式后論文,接下來(lái)的問題在于:

怎么評(píng)估PaperBanana的生圖效果論文?

實(shí)驗(yàn)方法及結(jié)果

對(duì)此,團(tuán)隊(duì)還專門構(gòu)建了一個(gè)PaperBananaBench論文。該基準(zhǔn)內(nèi)容源自NeurIPS 2025——

他們從5275篇論文中隨機(jī)采樣2000篇,經(jīng)過濾、人工校驗(yàn)后,得到584個(gè)有效樣本,然后將其均分為292個(gè)測(cè)試樣本和292個(gè)參考樣本論文

這292個(gè)參考樣本論文,每一個(gè)都提取了完整的(S, C, I)三元組:

S(源上下文):描述方法的文本論文,如論文方法論章節(jié);

C(傳達(dá)意圖):圖的標(biāo)題/說明論文,如“我們的框架概述”;

I(參考圖像):論文中實(shí)際使用的、高質(zhì)量的對(duì)應(yīng)圖表論文。

S(源上下文):描述方法的文本論文,如論文方法論章節(jié);

C(傳達(dá)意圖):圖的標(biāo)題/說明論文,如“我們的框架概述”;

I(參考圖像):論文中實(shí)際使用的、高質(zhì)量的對(duì)應(yīng)圖表論文

參考樣本集構(gòu)成了一個(gè)高質(zhì)量的“學(xué)術(shù)插圖數(shù)據(jù)庫(kù)”,主要供檢索智能體進(jìn)行查詢和匹配論文

而與之對(duì)應(yīng)的292個(gè)測(cè)試樣本,在評(píng)估時(shí)則僅提供S、C作為輸入論文。其對(duì)應(yīng)的I作為隱藏的標(biāo)準(zhǔn)答案,不參與生成過程,僅用于最終的質(zhì)量比對(duì)與評(píng)分。

準(zhǔn)備到這里,接下來(lái)就是具體生成和評(píng)估了論文。

裁判方面論文,他們采用了“VLM-as-a-Judge”(大模型當(dāng)裁判)的評(píng)估范式——

讓強(qiáng)大的視覺語(yǔ)言模型(如Gemini-3-Pro)作為評(píng)委,將PaperBanana生成的圖與測(cè)試集中隱藏的標(biāo)準(zhǔn)答案I進(jìn)行逐項(xiàng)對(duì)比論文。

對(duì)比的維度主要有四個(gè):忠實(shí)性、簡(jiǎn)潔性、可讀性、美觀性論文。

若PaperBanana表現(xiàn)優(yōu)于標(biāo)準(zhǔn)圖得100分,劣于得0分,持平得50分,最終計(jì)算總分論文。

而實(shí)驗(yàn)結(jié)果表明,PaperBanana在所有維度上全面超越了傳統(tǒng)的單模型直接生成(Vanilla)等基線方法論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

整體性能碾壓:總分相對(duì)基線提升了17.0%論文。其中,簡(jiǎn)潔性提升最為顯著,高達(dá)37.2%,說明它生成的圖邏輯更干凈、重點(diǎn)更突出;可讀性(+12.9%)和美觀性(+6.6%)也有大幅領(lǐng)先。

獲得人類盲測(cè)認(rèn)可:在匿名的人類盲測(cè)中,研究員有72.7%的情況認(rèn)為PaperBanana生成的圖比基線模型更好論文

統(tǒng)計(jì)圖表表現(xiàn)優(yōu)異:在需要高精度的統(tǒng)計(jì)圖表任務(wù)中,PaperBanana的“代碼生成模式”在數(shù)值忠實(shí)性上與人類水平相當(dāng),而簡(jiǎn)潔性和美觀性甚至略勝一籌論文

整體性能碾壓:總分相對(duì)基線提升了17.0%論文。其中,簡(jiǎn)潔性提升最為顯著,高達(dá)37.2%,說明它生成的圖邏輯更干凈、重點(diǎn)更突出;可讀性(+12.9%)和美觀性(+6.6%)也有大幅領(lǐng)先。

獲得人類盲測(cè)認(rèn)可:在匿名的人類盲測(cè)中,研究員有72.7%的情況認(rèn)為PaperBanana生成的圖比基線模型更好論文。

統(tǒng)計(jì)圖表表現(xiàn)優(yōu)異:在需要高精度的統(tǒng)計(jì)圖表任務(wù)中,PaperBanana的“代碼生成模式”在數(shù)值忠實(shí)性上與人類水平相當(dāng),而簡(jiǎn)潔性和美觀性甚至略勝一籌論文。

這里需要說明論文,在生成圖表方面,PaperBanana有兩種模式:

一種是代碼生成模式(默認(rèn))論文。讓Gemini-3-Pro這類模型自動(dòng)寫Python可視化代碼 (如Matplotlib),再運(yùn)行代碼出圖。優(yōu)點(diǎn)是可以保證數(shù)值絕對(duì)準(zhǔn)確,適合需要嚴(yán)格精度的場(chǎng)景。

另一種是直接生圖模式(可選方式)論文。跳過代碼,讓圖像生成模型直接根據(jù)文本描述生成圖表。優(yōu)點(diǎn)是視覺效果更頂,但數(shù)值容易出現(xiàn)幻覺問題。

左圖直接生圖模式下,紅框圈選出來(lái)的就是一些錯(cuò)誤問題,而右側(cè)的代碼生圖模式明顯無(wú)誤,但美觀度略遜論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

最后的消融實(shí)驗(yàn)證明,檢索參考、風(fēng)格優(yōu)化、批判迭代這三個(gè)環(huán)節(jié)缺一不可,它們共同保證了最終圖像的“準(zhǔn)確”與“好看”論文。

不過也需要提醒,PaperBanana目前仍有一些局限性,比如它作為生圖還無(wú)法編輯,同時(shí)在很多細(xì)節(jié)忠實(shí)度方面仍比不上人類手工作業(yè)論文。

所以,更保險(xiǎn)的做法或許是,讓它幫你優(yōu)化以前繪制過的圖論文。

在下面這套“手圖蛻變”流程下,很多圖都能變得更美觀、更高級(jí)……當(dāng)然也更容易入頂會(huì)的眼(doge)論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

谷歌x北大聯(lián)手打造

最后介紹下PaperBanana背后的團(tuán)隊(duì)論文

一共7人論文,可以清晰分成兩撥——

一撥來(lái)自北大,主要提供NLP與多模態(tài)理解的學(xué)術(shù)根基;另一撥來(lái)自Google Cloud AI Research,負(fù)責(zé)多模態(tài)系統(tǒng)與工業(yè)化視角論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

署名第一的Dawei Zhu(兼通訊作者),本碩博均就讀于北大,現(xiàn)為北大四年級(jí)博士生論文。

他重點(diǎn)研究長(zhǎng)上下文建模和多模態(tài)數(shù)據(jù),之前在微軟亞洲研究院實(shí)習(xí)過,目前是Google Cloud AI Research學(xué)生研究員,PaperBanana也是他在谷歌期間參與的項(xiàng)目論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火,論文圖表100%精確生成

借著北大這條線,另外兩位來(lái)自北大的分別是Xiyu Wei和Sujian Li(兼通訊作者)論文。

Sujian Li目前是北大計(jì)算機(jī)學(xué)院長(zhǎng)聘副教授,也是Dawei Zhu的博導(dǎo),主要研究自然語(yǔ)言處理、信息抽取等論文。

而Xiyu Wei可能還是學(xué)生,目前只能看到TA和Dawei Zhu合作過一篇關(guān)于拓展上下文的論文論文

而其他幾位來(lái)自Google Cloud AI Research的分別是論文

負(fù)責(zé)人Tomas Pfister、高級(jí)研究科學(xué)家Yale Song、研究科學(xué)家Rui Meng和Jinsung Yoon(兼通訊作者)論文。

本站內(nèi)容來(lái)自用戶投稿,如果侵犯了您的權(quán)利,請(qǐng)與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/post/11806.html

?? 簡(jiǎn) /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩