剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

AIPress.com.cn報道

3月16日消息,小米AI實驗室研究員羅福莉,也就是很多人口中的“天才少女”,又發(fā)論文了論文

論文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning論文。作者之一,就是羅福莉。

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

如果只看標(biāo)題,這篇論文似乎只是一個偏工程的研究:如何讓AI Agent的強(qiáng)化學(xué)習(xí)訓(xùn)練更省算力論文

但如果把它放在最近幾個月AI的發(fā)展脈絡(luò)里論文,

就會發(fā)現(xiàn)它其實正好落位在OpenClaw、Claude Code、Devin這一波 Agent浪潮的底層論文。

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

而要理解這篇論文所講的東西,

展開全文

需要我們先下一個定義論文,AI正在從“模型時代”進(jìn)入“Agent時代”

過去幾年,大多數(shù) AI 系統(tǒng)的結(jié)構(gòu)其實非常簡單論文。

輸入一段內(nèi)容,模型計算,然后輸出結(jié)果論文。

從ChatGPT到圖像生成模型論文,本質(zhì)都是同一個邏輯:

輸入→模型→輸出

整個系統(tǒng)的核心資源也很單一,那就是GPU論文。

因此過去幾年 AI 的競爭基本圍繞模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)、GPU算力三件事來展開論文。

但隨著AI Agent的出現(xiàn),計算結(jié)構(gòu)突然變得復(fù)雜起來論文。

一個典型的Agent任務(wù)可能是這樣的論文

思考→搜索信息→寫代碼→運(yùn)行代碼→分析結(jié)果→再修改

在這個過程中,AI不再只調(diào)用模型本身,還會不斷調(diào)用各種工具論文。

要用GPU去做模型推理論文,要用CPU去執(zhí)行代碼,要用API去處理搜索、數(shù)據(jù)庫,可能還要用瀏覽器進(jìn)行網(wǎng)頁操作......

于是論文,一個Agent系統(tǒng)的資源結(jié)構(gòu)就變成了:

GPU+CPU+API+存儲+網(wǎng)絡(luò)

這已經(jīng)非常接近一個完整的軟件系統(tǒng)論文。

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

“幫我整理今天的AI新聞并做成Excel論文。”

一個Agent就會搜索網(wǎng)頁、抓取信息、總結(jié)內(nèi)容、生成表格、保存文件論文

整個過程涉及瀏覽器、Python、文件系統(tǒng)、模型推理論文。

這是Agent計算模式的典型例子論文,龍蝦OpenClaw也是這么做的,

而最近Anthropic更新的Claude Code,也在逐漸向同樣的方向發(fā)展論文

/loop論文:讓AI自動循環(huán)執(zhí)行任務(wù)

CLAUDE.md論文:提供長期記憶

Session Spawning論文:手機(jī)遠(yuǎn)程啟動電腦上的AI編程任務(wù)

連不少開發(fā)者看完更新后的第一反應(yīng)都是“這不就是官方版龍蝦嗎論文?”

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

當(dāng)遠(yuǎn)程操控、自主執(zhí)行和長期記憶組合在一起時,AI不再只是一個聊天工具,而更像一個持續(xù)運(yùn)行的數(shù)字員工論文。

好用論文,確實是好用,但真正的問題也就在其中,

算力怎么調(diào)度論文?

在傳統(tǒng)模型訓(xùn)練中,資源基本只有GPU論文

但在 Agent 系統(tǒng)里論文,不同任務(wù)會不斷切換資源類型:

有時需要GPU論文,有時需要CPU,有時需要API

如果資源管理方式不合理,就會出現(xiàn)大量浪費(fèi)論文。

論文里給出的典型例子中有一項數(shù)據(jù)論文

在某些AI編程任務(wù)中,CPU的真實利用率只有47%論文

剩下的算力基本處于閑置狀態(tài)論文。

對于正在進(jìn)行大規(guī)模訓(xùn)練的 AI 公司來說,這種浪費(fèi)意味著巨大的成本論文

基于此,羅福莉等人的論文提出了一種新的系統(tǒng):Tangram論文

它的核心思路很像操作系統(tǒng)的進(jìn)程調(diào)度論文

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

傳統(tǒng)系統(tǒng)的資源分配方式是任務(wù)級調(diào)度:

一個Agent任務(wù)開始時,就會占用CPU或GPU,直到任務(wù)結(jié)束論文。

而Tangram采用的是動作級調(diào)度論文。

也就是說,只有當(dāng)某個具體操作需要資源時,系統(tǒng)才會分配資源論文。

寫代碼→GPU

編譯代碼→CPU

運(yùn)行測試→CPU

搜索資料→API

這樣不同Agent的任務(wù)可以共享資源論文。

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

實驗結(jié)果顯示,這種調(diào)度方式帶來明顯提升:平均任務(wù)時間縮短4.3倍,訓(xùn)練效率提升1.5倍,外部資源成本降低71%,

對于正在進(jìn)行大規(guī)模Agent訓(xùn)練的團(tuán)隊來說,這種效率提升非常關(guān)鍵論文

如果把最近幾個月的技術(shù)動向連起來,會看到一條越來越清晰的路線論文

OpenClaw解決的是Agent的運(yùn)行框架問題論文,

Claude Code、Devin解決的是Agent在真實任務(wù)中的應(yīng)用問題論文

而羅福莉等人做Tangram這樣的研究,則開始解決Agent的底層計算問題論文。

這說明AI行業(yè)正在經(jīng)歷一個結(jié)構(gòu)性變化論文,

競爭的焦點(diǎn)正在從模型能力轉(zhuǎn)向Agent系統(tǒng)能力論文

這也正是為什么OpenClaw、Claude Code、Devin會在今年突然變得如此重要論文。

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E8%87%9F%E6%B0%B4.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩