超碰人人精品国产,国产日产久久高清欧美一区,亚洲国产成人一区二区精品区,A级国产乱理伦片免费观看

一水發(fā)自凹非寺

量子位 | 公眾號(hào) QbitAI

效果好到刷屏的Nano Banana論文，學(xué)術(shù)特供版熱乎出爐！

名字就是如此直觀——PaperBanana，給你每天都在頭痛的Paper用上Banana論文。（試圖押韻skr)

而且這一次是由谷歌北大強(qiáng)強(qiáng)聯(lián)手打造論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火，論文圖表100%精確生成

知道你想馬上看效果，別急，三個(gè)官方案例這就給大家搬上桌論文。

在相同輸入下論文，人類繪制、原版Nano Banana與PaperBanana生成的論文插圖對(duì)比如下：

綜合評(píng)估顯示，PaperBanana在美觀性、簡(jiǎn)潔性與邏輯清晰度上均全面優(yōu)于原版論文。

展開全文

而且它還能直接優(yōu)化人工繪制的插圖，瞅瞅右邊，是不是高級(jí)感一下就上去了論文。

此外，由于PaperBanana還提供代碼出圖功能（即利用Gemini-3-Pro自動(dòng)生成并執(zhí)行Python可視化代碼出圖），所以它還能用來(lái)生成需要數(shù)值100%精準(zhǔn)的各種圖表論文。

好好好，既能拿捏高級(jí)感，又不忘精準(zhǔn)度，應(yīng)該沒有學(xué)術(shù)人不愛吧~

論文作者表示，PaperBanana為全自動(dòng)生成可用于出版的插圖鋪平了道路論文。

我們希望這個(gè)框架能成為連接復(fù)雜科學(xué)概念與高效視覺敘事的橋梁，賦能每一位研究者，用專業(yè)級(jí)的視覺語(yǔ)言清晰呈現(xiàn)其發(fā)現(xiàn)論文。

而在看到其效果之后，一眾網(wǎng)友也紛紛感嘆“學(xué)術(shù)插圖”這個(gè)老大難總算是要被攻克了論文。

想想以前的日子論文，真真是要落淚了~

研究人員花費(fèi)4個(gè)小時(shí)在Figma中繪制一張圖，簡(jiǎn)直令人難以置信論文。

那么論文，學(xué)術(shù)版PaperBanana是如何煉造的呢？

一個(gè)不夠論文，那就5個(gè)！

用一個(gè)模型生圖怎么夠，現(xiàn)在都是多智能體齊上陣了論文。

沒錯(cuò)，PaperBanana背后就是5個(gè)分工明確的智能體在起作用論文。

Retriever Agent（檢索智能體）：從頂會(huì)論文庫(kù)中，找到與你要畫的圖領(lǐng)域、結(jié)構(gòu)最相似的參考案例論文。

Planner Agent（規(guī)劃智能體）：把論文文字描述，轉(zhuǎn)化為包含所有模塊、邏輯的詳細(xì)繪圖說明書論文。

Stylist Agent（風(fēng)格智能體）：總結(jié)學(xué)術(shù)審美規(guī)范，給說明書加上配色、排版等“美顏”標(biāo)準(zhǔn)論文。

Visualizer Agent（可視化智能體）：根據(jù)說明書，直接畫圖或?qū)懘a出圖，產(chǎn)出初稿論文。

Critic Agent（批判智能體）：檢查圖的對(duì)錯(cuò)與美觀度，提出修改意見，循環(huán)迭代3輪優(yōu)化論文。

Retriever Agent（檢索智能體）：從頂會(huì)論文庫(kù)中，找到與你要畫的圖領(lǐng)域、結(jié)構(gòu)最相似的參考案例論文。

Planner Agent（規(guī)劃智能體）：把論文文字描述，轉(zhuǎn)化為包含所有模塊、邏輯的詳細(xì)繪圖說明書論文。

Stylist Agent（風(fēng)格智能體）：總結(jié)學(xué)術(shù)審美規(guī)范，給說明書加上配色、排版等“美顏”標(biāo)準(zhǔn)論文。

Visualizer Agent（可視化智能體）：根據(jù)說明書，直接畫圖或?qū)懘a出圖，產(chǎn)出初稿論文。

Critic Agent（批判智能體）：檢查圖的對(duì)錯(cuò)與美觀度，提出修改意見，循環(huán)迭代3輪優(yōu)化論文。

下面這張圖清晰展示了它們的工作流程論文：

劃重點(diǎn)，連這張圖也是PaperBanana自己生成的論文。

論文作者表示，這一過程參考了人類制作論文插圖的流程論文。

以制作一個(gè)模型架構(gòu)圖為例，通常研究人員會(huì)先去看看頂會(huì)里類似工作的圖是怎么畫的，找找靈感和規(guī)范論文。

這一步就對(duì)應(yīng)了檢索智能體的工作論文。

然后就需要根據(jù)參考來(lái)規(guī)劃自己的圖該怎么畫，“我的方法有幾個(gè)關(guān)鍵模塊？”、“數(shù)據(jù)流和邏輯順序是怎樣的？”，在想清所有關(guān)鍵問題后，腦子里大概就有一幅架構(gòu)藍(lán)圖了論文。

而到這一步還不是真正動(dòng)筆的時(shí)候，因?yàn)檫€需要結(jié)合自己的圖以及之前看過的“頂會(huì)審美”標(biāo)準(zhǔn)，來(lái)給藍(lán)圖加點(diǎn)設(shè)計(jì)感論文。

有了這兩樣?xùn)|西（藍(lán)圖+審美），現(xiàn)在就可以真正出圖了論文。

并且出完之后，研究人員往往還需要檢查一番，以確保出圖正確無(wú)誤論文。

怎么樣？是不是一環(huán)扣一環(huán)、且全都一一對(duì)應(yīng)上了論文。

而在了解完P(guān)aperBanana的工作方式后論文，接下來(lái)的問題在于：

怎么評(píng)估PaperBanana的生圖效果論文？

實(shí)驗(yàn)方法及結(jié)果

對(duì)此，團(tuán)隊(duì)還專門構(gòu)建了一個(gè)PaperBananaBench論文。該基準(zhǔn)內(nèi)容源自NeurIPS 2025——

他們從5275篇論文中隨機(jī)采樣2000篇，經(jīng)過濾、人工校驗(yàn)后，得到584個(gè)有效樣本，然后將其均分為292個(gè)測(cè)試樣本和292個(gè)參考樣本論文。

這292個(gè)參考樣本論文，每一個(gè)都提取了完整的（S, C, I）三元組：

S（源上下文）：描述方法的文本論文，如論文方法論章節(jié)；

C（傳達(dá)意圖）：圖的標(biāo)題/說明論文，如“我們的框架概述”；

I（參考圖像）：論文中實(shí)際使用的、高質(zhì)量的對(duì)應(yīng)圖表論文。

S（源上下文）：描述方法的文本論文，如論文方法論章節(jié)；

C（傳達(dá)意圖）：圖的標(biāo)題/說明論文，如“我們的框架概述”；

I（參考圖像）：論文中實(shí)際使用的、高質(zhì)量的對(duì)應(yīng)圖表論文。

參考樣本集構(gòu)成了一個(gè)高質(zhì)量的“學(xué)術(shù)插圖數(shù)據(jù)庫(kù)”，主要供檢索智能體進(jìn)行查詢和匹配論文。

而與之對(duì)應(yīng)的292個(gè)測(cè)試樣本，在評(píng)估時(shí)則僅提供S、C作為輸入論文。其對(duì)應(yīng)的I作為隱藏的標(biāo)準(zhǔn)答案，不參與生成過程，僅用于最終的質(zhì)量比對(duì)與評(píng)分。

準(zhǔn)備到這里，接下來(lái)就是具體生成和評(píng)估了論文。

裁判方面論文，他們采用了“VLM-as-a-Judge”（大模型當(dāng)裁判）的評(píng)估范式——

讓強(qiáng)大的視覺語(yǔ)言模型（如Gemini-3-Pro）作為評(píng)委，將PaperBanana生成的圖與測(cè)試集中隱藏的標(biāo)準(zhǔn)答案I進(jìn)行逐項(xiàng)對(duì)比論文。

對(duì)比的維度主要有四個(gè)：忠實(shí)性、簡(jiǎn)潔性、可讀性、美觀性論文。

若PaperBanana表現(xiàn)優(yōu)于標(biāo)準(zhǔn)圖得100分，劣于得0分，持平得50分，最終計(jì)算總分論文。

而實(shí)驗(yàn)結(jié)果表明，PaperBanana在所有維度上全面超越了傳統(tǒng)的單模型直接生成（Vanilla）等基線方法論文。

整體性能碾壓：總分相對(duì)基線提升了17.0%論文。其中，簡(jiǎn)潔性提升最為顯著，高達(dá)37.2%，說明它生成的圖邏輯更干凈、重點(diǎn)更突出；可讀性（+12.9%）和美觀性（+6.6%）也有大幅領(lǐng)先。

獲得人類盲測(cè)認(rèn)可：在匿名的人類盲測(cè)中，研究員有72.7%的情況認(rèn)為PaperBanana生成的圖比基線模型更好論文。

統(tǒng)計(jì)圖表表現(xiàn)優(yōu)異：在需要高精度的統(tǒng)計(jì)圖表任務(wù)中，PaperBanana的“代碼生成模式”在數(shù)值忠實(shí)性上與人類水平相當(dāng)，而簡(jiǎn)潔性和美觀性甚至略勝一籌論文。

獲得人類盲測(cè)認(rèn)可：在匿名的人類盲測(cè)中，研究員有72.7%的情況認(rèn)為PaperBanana生成的圖比基線模型更好論文。

這里需要說明論文，在生成圖表方面，PaperBanana有兩種模式：

一種是代碼生成模式（默認(rèn)）論文。讓Gemini-3-Pro這類模型自動(dòng)寫Python可視化代碼（如Matplotlib），再運(yùn)行代碼出圖。優(yōu)點(diǎn)是可以保證數(shù)值絕對(duì)準(zhǔn)確，適合需要嚴(yán)格精度的場(chǎng)景。

另一種是直接生圖模式（可選方式）論文。跳過代碼，讓圖像生成模型直接根據(jù)文本描述生成圖表。優(yōu)點(diǎn)是視覺效果更頂，但數(shù)值容易出現(xiàn)幻覺問題。

左圖直接生圖模式下，紅框圈選出來(lái)的就是一些錯(cuò)誤問題，而右側(cè)的代碼生圖模式明顯無(wú)誤，但美觀度略遜論文。

最后的消融實(shí)驗(yàn)證明，檢索參考、風(fēng)格優(yōu)化、批判迭代這三個(gè)環(huán)節(jié)缺一不可，它們共同保證了最終圖像的“準(zhǔn)確”與“好看”論文。

不過也需要提醒，PaperBanana目前仍有一些局限性，比如它作為生圖還無(wú)法編輯，同時(shí)在很多細(xì)節(jié)忠實(shí)度方面仍比不上人類手工作業(yè)論文。

所以，更保險(xiǎn)的做法或許是，讓它幫你優(yōu)化以前繪制過的圖論文。

在下面這套“手圖蛻變”流程下，很多圖都能變得更美觀、更高級(jí)……當(dāng)然也更容易入頂會(huì)的眼（doge）論文。

谷歌x北大聯(lián)手打造

最后介紹下PaperBanana背后的團(tuán)隊(duì)論文。

一共7人論文，可以清晰分成兩撥——

一撥來(lái)自北大，主要提供NLP與多模態(tài)理解的學(xué)術(shù)根基；另一撥來(lái)自Google Cloud AI Research，負(fù)責(zé)多模態(tài)系統(tǒng)與工業(yè)化視角論文。

署名第一的Dawei Zhu（兼通訊作者），本碩博均就讀于北大，現(xiàn)為北大四年級(jí)博士生論文。

他重點(diǎn)研究長(zhǎng)上下文建模和多模態(tài)數(shù)據(jù)，之前在微軟亞洲研究院實(shí)習(xí)過，目前是Google Cloud AI Research學(xué)生研究員，PaperBanana也是他在谷歌期間參與的項(xiàng)目論文。

借著北大這條線，另外兩位來(lái)自北大的分別是Xiyu Wei和Sujian Li（兼通訊作者）論文。

Sujian Li目前是北大計(jì)算機(jī)學(xué)院長(zhǎng)聘副教授，也是Dawei Zhu的博導(dǎo)，主要研究自然語(yǔ)言處理、信息抽取等論文。

而Xiyu Wei可能還是學(xué)生，目前只能看到TA和Dawei Zhu合作過一篇關(guān)于拓展上下文的論文論文。

而其他幾位來(lái)自Google Cloud AI Research的分別是論文：

負(fù)責(zé)人Tomas Pfister、高級(jí)研究科學(xué)家Yale Song、研究科學(xué)家Rui Meng和Jinsung Yoon（兼通訊作者）論文。

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火，論文圖表100%精確生成

海之嵐財(cái)稅公司

熱門標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火，論文圖表100%精確生成

海之嵐財(cái)稅公司

熱門標(biāo)簽

相關(guān)詞匯

分站導(dǎo)航

谷歌北大聯(lián)手學(xué)術(shù)版Banana爆火，論文圖表100%精確生成