陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

編輯|Panda、澤南

前兩天,Node.js 之父 Ryan Dahl 在 X 上斷言:「人類編寫代碼的時(shí)代已經(jīng)結(jié)束了論文。」該帖引發(fā)廣泛討論,瀏覽量更是已經(jīng)超過了 700 萬。而現(xiàn)在,我們迎來了一個(gè)對(duì)這一判斷的有力證明。

剛剛,英偉達(dá)杰出工程師許冰(Bing Xu)在 GitHub 上開源了一個(gè)新項(xiàng)目 VibeTensor,讓我們看到了 AI 在編程方面的強(qiáng)大實(shí)力論文。

從名字也能看出來,這是 Vibe Coding 的成果論文。事實(shí)也確實(shí)如此,這位谷歌學(xué)術(shù)引用量超 20 萬的工程師在 X 上表示:「這是第一個(gè)完全由 AI 智能體生成的深度學(xué)習(xí)系統(tǒng),沒有一行人類編寫的代碼?!?/p>

展開全文

更具體來說,VibeTensor 是一個(gè)可運(yùn)行的深度學(xué)習(xí)系統(tǒng),配備了 RCU 風(fēng)格的調(diào)度器、緩存分配器和反向模式自動(dòng)微分器論文。該智能體還發(fā)明了一種 Fabric 張量系統(tǒng) —— 這是目前任何框架中都不存在的新東西。

很明顯論文,許冰分享的這張項(xiàng)目架構(gòu)圖也是 AI 生成的

其 Vibe Kernel 包含 13 種不同類型、總計(jì)約 4.7 萬行代碼的自動(dòng)生成內(nèi)核,這些內(nèi)核使用 Triton 和 CuteDSL 編寫,并且具有很強(qiáng)的性能表現(xiàn)論文。

許冰表示,VibeTensor 由英偉達(dá)的第四代智能體生成論文。但它也呈現(xiàn)出了一種「弗蘭肯斯坦效應(yīng)(Frankenstein Effect)」:系統(tǒng)本身是正確的,但某些關(guān)鍵路徑的設(shè)計(jì)效率低下。因此,其性能無法與 PyTorch 相媲美。

更重要的是,許冰強(qiáng)調(diào):「自 2025 年夏天以來,我一行代碼都沒寫過論文?!顾f這項(xiàng)工作是他看過 Andrej Kaparthy 的播客之后開始的?!肝耶?dāng)時(shí)并不認(rèn)同他的觀點(diǎn),所以我和 Terry Chen(英偉達(dá)首席工程師)開始用它來測(cè)試我們的智能體的能力。弗蘭肯斯坦效應(yīng)最終暴露了我們智能體的一些局限性 —— 但方向很明確?!?/p>

該項(xiàng)目在 X 上引起了不少關(guān)注,許冰的幾位著名英偉達(dá)同事(也被列為參與者)也有分享點(diǎn)評(píng)論文。

比如陳天奇表示:VibeTensor 很有意思,它表明 AI 智能體能夠構(gòu)建深度學(xué)習(xí)框架這樣復(fù)雜的東西論文?!干傻拇a還有一些需要改進(jìn)的地方,但它能夠做到這一點(diǎn)本身就非常有趣?!?/p> 陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

賈揚(yáng)清的評(píng)價(jià)則更高,他表示該項(xiàng)目的出現(xiàn)罕見地驗(yàn)證了一個(gè)根本性問題:AI 能否編寫復(fù)雜的系統(tǒng)代碼?而該項(xiàng)目給出的答案是「能,但是……(仍有問題)」論文。他說 AI 正以驚人的速度前進(jìn),「如果我們能掌握更多正確的原則,AI 終將完全超越人類程序員。這就像 2015 年 1 月的 AlphaGo。」

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

目前,許冰已經(jīng)在 GitHub 上 NVlabs 帳號(hào)下發(fā)布了 VibeTensor 的相關(guān)內(nèi)容,其中也包含一篇論文論文。

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

論文標(biāo)題:VibeTensor: System Software for Deep Learning, Fully Generated by AI Agents

論文地址論文

項(xiàng)目鏈接論文

有意思的是,當(dāng)我們初看這篇論文時(shí),我們發(fā)現(xiàn)論文中有一些 AI 生成的內(nèi)容論文。于是我們?cè)儐柫嗽S冰本人,而他給出的答案讓我們非常震驚:這篇論文竟也是 100% 由 AI 撰寫的!

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

許冰的回復(fù)

下面我們就來詳細(xì)看看這個(gè) AI 編寫的項(xiàng)目究竟是什么論文。

VibeTensor論文:全球首個(gè)完全由 AI 智能體生成的全棧系統(tǒng)

VibeTensor 可不僅僅是又一個(gè)深度學(xué)習(xí)庫(kù)論文。它是全球首個(gè)完全由 AI 智能體生成的全棧系統(tǒng)。從 Python/Node.js 的上層綁定,到 C++ 核心調(diào)度器,再到最底層的 CUDA 內(nèi)存管理,每一行代碼的增刪改查、每一次 Bug 的修復(fù)、每一輪構(gòu)建驗(yàn)證,全部由英偉達(dá)第四代智能體(Agent)獨(dú)立完成。

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

而人類的作用是提供了高層級(jí)的需求指導(dǎo),然后像監(jiān)工一樣看著 AI 智能體在兩個(gè)月內(nèi)瘋狂輸出論文。下面就來拆解一下這個(gè)氛圍編程版的 PyTorch:VibeTensor。

首先,性能上雖然 VibeTensor 目前還無法與 PyTorch 這種經(jīng)過多年磨礪的框架抗衡(根據(jù)論文測(cè)試,部分場(chǎng)景慢了約 1.7 到 6.2 倍),但作為一個(gè)功能完整的技術(shù)原型,其設(shè)計(jì)的完整度令人吃驚論文。

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

根據(jù)論文描述,VibeTensor 并不是一個(gè)簡(jiǎn)單的包裝庫(kù),它擁有極其硬核的底層架構(gòu)論文。

核心運(yùn)行時(shí)的「暴力美學(xué)」

VibeTensor 的 C++20 核心并非簡(jiǎn)單的庫(kù)調(diào)用論文。它實(shí)現(xiàn)了一個(gè)完整的 TensorImpl 架構(gòu),作為參考計(jì)數(shù)的 Storage 之上的視圖。令人驚訝的是,AI 賦予了它支持非連續(xù)視圖(Non-contiguous views)和 as_strided 語義的能力,并引入了原子版本計(jì)數(shù)器來確保原地(In-place)操作的安全性。

在算子調(diào)度層面,AI 構(gòu)建了一個(gè) schema-lite 調(diào)度器,能夠?qū)?vt::add 這樣的操作名精準(zhǔn)映射到 CPU 或 CUDA 的內(nèi)核實(shí)現(xiàn)上論文。這種設(shè)計(jì)支持鎖定(Boxed)和非鎖定(Unboxed)調(diào)用路徑,并通過不可變的快照狀態(tài)(Snapshot states)實(shí)現(xiàn)了穩(wěn)態(tài)下的無鎖調(diào)用,極大地壓低了調(diào)度開銷。

獨(dú)創(chuàng)的 Fabric 張量系統(tǒng)論文:不屬于任何現(xiàn)有框架

在 VibeTensor 的所有組件中,最令人振奮的莫過于名為 Fabric 的實(shí)驗(yàn)性子系統(tǒng)論文。這是目前市面上任何主流深度學(xué)習(xí)框架(如 PyTorch 或 TensorFlow)中都不曾以這種形式存在的概念。

Fabric 本質(zhì)上是一個(gè)顯式的多設(shè)備抽象層論文。它的核心使命是打破單卡運(yùn)行時(shí)的限制,直接接管硬件拓?fù)涞淖詣?dòng)發(fā)現(xiàn)過程。根據(jù)論文描述,F(xiàn)abric 能夠主動(dòng)識(shí)別 CUDA P2P(點(diǎn)對(duì)點(diǎn))和 UVA(統(tǒng)一虛擬地址)支持情況。

不同于傳統(tǒng)框架將多卡通信隱藏在復(fù)雜的分布式 API 后,F(xiàn)abric 提供了一套透明的可觀測(cè)原語,允許研究者直接控制內(nèi)存的放置與同步策略論文。

在 VibeTensor 的 Blackwell 評(píng)估中,AI 甚至基于 Fabric 構(gòu)建了一個(gè)可選的環(huán)形全歸約(Ring-allreduce)插件論文。這種插件直接綁定了 CUTLASS 的實(shí)驗(yàn)性內(nèi)核,完全繞過了 NCCL。這意味著 AI 已經(jīng)開始嘗試從底層通信協(xié)議層面,去重構(gòu)大規(guī)模分布式訓(xùn)練的邏輯。

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

異步優(yōu)先的「Node.js + Python」雙前端

在用戶界面上,AI 并沒有止步于復(fù)刻一個(gè) PyTorch論文。它不僅利用 nanobind 打造了一個(gè)高度兼容的 Python 覆蓋層(vibetensor.torch),還開創(chuàng)性地引入了一個(gè)基于 Node-API 的 Node.js 插件。

這個(gè) JavaScript/TypeScript 界面采用了純粹的「異步優(yōu)先」設(shè)計(jì)論文。所有的重負(fù)載任務(wù)都被調(diào)度至 napi_async_work 以避免阻塞 Node 事件循環(huán),并通過一個(gè)全局在途任務(wù)上限(VBT_NODE_MAX_INFLIGHT_OPS)來精細(xì)控制排隊(duì)壓力。這種橫跨數(shù)據(jù)科學(xué)(Python)與后端工程(Node.js)的選型,體現(xiàn)了 AI 智能體在處理異構(gòu)開發(fā)環(huán)境時(shí)的靈活性。

AI 內(nèi)核套件論文:從算子到顯存的全自動(dòng)進(jìn)化

在最底層的算子實(shí)現(xiàn)上,VibeTensor 附帶了一個(gè)由 AI 生成的龐大內(nèi)核套件論文。這里包含了 200 多個(gè)源文件,涵蓋了從基礎(chǔ)的 LayerNorm 到復(fù)雜的 Fused Attention 等各類算子。

這些內(nèi)核利用了 Triton 和英偉達(dá)自家的 CuTeDSL 編寫論文。

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

值得注意的是,AI 生成的內(nèi)核并非只是「能用」,在 H100 的實(shí)測(cè)中,其生成的 Fused Attention 內(nèi)核在特定形狀下,前向計(jì)算比 PyTorch 的原生 FlashAttention 快了 1.54 倍,后向計(jì)算快了 1.26 倍論文。盡管這只是孤立算子的表現(xiàn),但它證明了 AI 在掌握硬件特性(如 Hopper 架構(gòu)的 TMA 或 Tensor Cores)方面的巨大潛力。

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

弗蘭肯斯坦效應(yīng):AI 編程的隱形墻

盡管 VibeTensor 能夠跑通復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型,但許冰和團(tuán)隊(duì)在論文中誠(chéng)實(shí)地提出了一個(gè)引人深思的概念:「弗蘭肯斯坦效應(yīng)(Frankenstein Effect)」論文。

陳天奇、賈揚(yáng)清點(diǎn)贊:Vibe Coding版PyTorch,連論文都是AI寫的

這是 AI 智能體在構(gòu)建復(fù)雜系統(tǒng)時(shí)暴露出的核心局限性論文。簡(jiǎn)單來說,AI 能夠確保每一個(gè)局部子系統(tǒng)(如調(diào)度器、分配器、算子)在邏輯上是正確的,且能通過單元測(cè)試。但當(dāng)這些局部組件拼湊成一個(gè)龐大的全局系統(tǒng)時(shí),它們之間會(huì)產(chǎn)生意想不到的「摩擦」,形成性能瓶頸。

例如,AI 為了確保多線程環(huán)境下的安全性,在 Autograd 引擎中設(shè)計(jì)了一個(gè)非重入的全局互斥鎖論文。這個(gè)設(shè)計(jì)從局部看非常穩(wěn)健、安全,但在全局運(yùn)行時(shí)卻成了「扼殺」并行性能的元兇,導(dǎo)致原本高效的顯卡內(nèi)核因數(shù)據(jù)等待而頻繁空轉(zhuǎn)。這種「正確但低效」的代碼,正是目前智能體在系統(tǒng)級(jí)架構(gòu)設(shè)計(jì)上的天花板。

AI 輔助的開發(fā)方法

VibeTensor 的誕生并非源于一次簡(jiǎn)單的提示詞工程,而是一場(chǎng)長(zhǎng)達(dá)兩個(gè)月的、由高層級(jí)人類指令驅(qū)動(dòng)的 Agent 自主演化過程論文。許冰也讓 AI 在論文中用一個(gè)章節(jié)專門總結(jié)了「AI 輔助的開發(fā)方法」。

1. 徹底的「黑盒」工作流

在這場(chǎng)實(shí)驗(yàn)中,人類的角色從「程序員」徹底轉(zhuǎn)變?yōu)椤副O(jiān)工」與「策略制定者」論文。許冰及其團(tuán)隊(duì)并沒有進(jìn)行任何代碼層面的 Diff Review(差異審查),也沒有手動(dòng)運(yùn)行過任何驗(yàn)證命令。

相反論文,開發(fā)流程被簡(jiǎn)化為一個(gè)持續(xù)循環(huán)的閉環(huán):

目標(biāo)設(shè)定: 人類指定一個(gè)作用域明確的目標(biāo)和必須遵守的約束條件論文

代碼生成: AI 智能體自主提議代碼更改,并以 Diff 的形式應(yīng)用到倉(cāng)庫(kù)中論文。

工具校驗(yàn): Agent 會(huì)自動(dòng)調(diào)用編譯器、測(cè)試框架和差異檢查工具論文。

多智能體評(píng)審: 為了彌補(bǔ)單體 AI 可能存在的盲點(diǎn),團(tuán)隊(duì)引入了多 Agent 協(xié)作評(píng)審機(jī)制,用于捕捉缺失的邊界情況、冗余的抽象或是潛在的安全隱患論文

2. 測(cè)試驅(qū)動(dòng)的「硬核」規(guī)范

在 Agent 驅(qū)動(dòng)的開發(fā)中,測(cè)試不再是錦上添花,而是唯一的「真理來源」論文。VibeTensor 的每一行代碼都必須經(jīng)過 C++(CTest)和 Python(pytest)雙重測(cè)試套件的洗禮。

更具創(chuàng)新性的是,AI 智能體還利用 PyTorch 作為一個(gè)「參考原件」,建立了一套自動(dòng)化的 API 對(duì)齊檢查器論文。當(dāng) AI 編寫的算子出現(xiàn)數(shù)值偏差或內(nèi)存泄漏時(shí),Agent 會(huì)自主分析報(bào)錯(cuò)日志,添加一個(gè)最小化的回歸測(cè)試用例,并重新進(jìn)入修復(fù)循環(huán)。這種「測(cè)試即規(guī)格說明」的模式,確保了即使在缺乏人工干預(yù)的情況下,生成的 16 萬行代碼依然保持了極高的邏輯一致性。

3. 跨層級(jí)調(diào)試的挑戰(zhàn)

論文揭示了一個(gè)有趣的現(xiàn)象:AI 在處理「單次正確」的任務(wù)時(shí)表現(xiàn)卓越,但在處理系統(tǒng)的「組合穩(wěn)定性」時(shí)卻面臨巨大挑戰(zhàn)論文。例如,在 Fused Attention 算子的移植過程中,Agent 經(jīng)歷了多次挫?。簭淖畛醯膮?shù)超限、顯存對(duì)齊錯(cuò)誤,到運(yùn)行數(shù)千次后才暴露出的緩沖區(qū)初始化隱患。

這種跨越 C++ 運(yùn)行時(shí)、CUDA 驅(qū)動(dòng)程序和 Python 封裝層的多級(jí)調(diào)試能力,正是此次英偉達(dá)第四代智能體展示出的最核心競(jìng)爭(zhēng)力論文。它證明了 Agent 已經(jīng)能夠理解復(fù)雜的內(nèi)存語義和硬件約束,而不僅僅是模仿代碼片段。

AI 工程師的「AlphaGo 時(shí)刻」論文?

VibeTensor 的出現(xiàn)并非為了取代 PyTorch,而是一場(chǎng)關(guān)于「生成式軟件工程」的宏大實(shí)驗(yàn)論文。

正如前文所述,許冰提到這項(xiàng)工作的靈感源于 Andrej Karpathy 的播客論文。當(dāng)時(shí)他并不完全認(rèn)同 Karpathy 關(guān)于「AI 編程」的某些激進(jìn)觀點(diǎn),于是決定和首席工程師 Terry Chen 一起,用最硬核的系統(tǒng)開發(fā)來測(cè)試智能體的極限。

現(xiàn)在,方向已經(jīng)明確論文。雖然「弗蘭肯斯坦效應(yīng)」依然存在,但 VibeTensor 的誕生標(biāo)志著一個(gè)新時(shí)代的開啟:未來的系統(tǒng)軟件可能不再是工程師逐行敲出來的,而是由人類定義需求、由 AI 在「氛圍」中生成出來的。

參考鏈接

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請(qǐng)與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E5%8F%A4%E5%8B%81.html

?? 簡(jiǎn) /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩