剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

AIPress.com.cn報(bào)道

3月16日消息,小米AI實(shí)驗(yàn)室研究員羅福莉,也就是很多人口中的“天才少女”,又發(fā)論文了論文

論文名叫ARL-Tangram: Unleash the Resource Efficiency in Agentic Reinforcement Learning論文。作者之一,就是羅福莉。

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

如果只看標(biāo)題,這篇論文似乎只是一個(gè)偏工程的研究:如何讓AI Agent的強(qiáng)化學(xué)習(xí)訓(xùn)練更省算力論文。

但如果把它放在最近幾個(gè)月AI的發(fā)展脈絡(luò)里論文,

就會發(fā)現(xiàn)它其實(shí)正好落位在OpenClaw、Claude Code、Devin這一波 Agent浪潮的底層論文。

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

而要理解這篇論文所講的東西,

展開全文

需要我們先下一個(gè)定義論文,AI正在從“模型時(shí)代”進(jìn)入“Agent時(shí)代”

過去幾年,大多數(shù) AI 系統(tǒng)的結(jié)構(gòu)其實(shí)非常簡單論文

輸入一段內(nèi)容,模型計(jì)算,然后輸出結(jié)果論文。

從ChatGPT到圖像生成模型論文,本質(zhì)都是同一個(gè)邏輯:

輸入→模型→輸出

整個(gè)系統(tǒng)的核心資源也很單一,那就是GPU論文。

因此過去幾年 AI 的競爭基本圍繞模型參數(shù)規(guī)模、訓(xùn)練數(shù)據(jù)、GPU算力三件事來展開論文

但隨著AI Agent的出現(xiàn),計(jì)算結(jié)構(gòu)突然變得復(fù)雜起來論文

一個(gè)典型的Agent任務(wù)可能是這樣的論文

思考→搜索信息→寫代碼→運(yùn)行代碼→分析結(jié)果→再修改

在這個(gè)過程中,AI不再只調(diào)用模型本身,還會不斷調(diào)用各種工具論文。

要用GPU去做模型推理論文,要用CPU去執(zhí)行代碼,要用API去處理搜索、數(shù)據(jù)庫,可能還要用瀏覽器進(jìn)行網(wǎng)頁操作......

于是論文,一個(gè)Agent系統(tǒng)的資源結(jié)構(gòu)就變成了:

GPU+CPU+API+存儲+網(wǎng)絡(luò)

這已經(jīng)非常接近一個(gè)完整的軟件系統(tǒng)論文。

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

“幫我整理今天的AI新聞并做成Excel論文。”

一個(gè)Agent就會搜索網(wǎng)頁、抓取信息、總結(jié)內(nèi)容、生成表格、保存文件論文,

整個(gè)過程涉及瀏覽器、Python、文件系統(tǒng)、模型推理論文

這是Agent計(jì)算模式的典型例子論文,龍蝦OpenClaw也是這么做的,

而最近Anthropic更新的Claude Code,也在逐漸向同樣的方向發(fā)展論文。

/loop論文:讓AI自動循環(huán)執(zhí)行任務(wù)

CLAUDE.md論文:提供長期記憶

Session Spawning論文:手機(jī)遠(yuǎn)程啟動電腦上的AI編程任務(wù)

連不少開發(fā)者看完更新后的第一反應(yīng)都是“這不就是官方版龍蝦嗎論文?”

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

當(dāng)遠(yuǎn)程操控、自主執(zhí)行和長期記憶組合在一起時(shí),AI不再只是一個(gè)聊天工具,而更像一個(gè)持續(xù)運(yùn)行的數(shù)字員工論文。

好用論文,確實(shí)是好用,但真正的問題也就在其中,

算力怎么調(diào)度論文?

在傳統(tǒng)模型訓(xùn)練中,資源基本只有GPU論文。

但在 Agent 系統(tǒng)里論文,不同任務(wù)會不斷切換資源類型:

有時(shí)需要GPU論文,有時(shí)需要CPU,有時(shí)需要API

如果資源管理方式不合理,就會出現(xiàn)大量浪費(fèi)論文。

論文里給出的典型例子中有一項(xiàng)數(shù)據(jù)論文,

在某些AI編程任務(wù)中,CPU的真實(shí)利用率只有47%論文

剩下的算力基本處于閑置狀態(tài)論文。

對于正在進(jìn)行大規(guī)模訓(xùn)練的 AI 公司來說,這種浪費(fèi)意味著巨大的成本論文。

基于此,羅福莉等人的論文提出了一種新的系統(tǒng):Tangram論文。

它的核心思路很像操作系統(tǒng)的進(jìn)程調(diào)度論文。

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

傳統(tǒng)系統(tǒng)的資源分配方式是任務(wù)級調(diào)度:

一個(gè)Agent任務(wù)開始時(shí),就會占用CPU或GPU,直到任務(wù)結(jié)束論文。

而Tangram采用的是動作級調(diào)度論文

也就是說,只有當(dāng)某個(gè)具體操作需要資源時(shí),系統(tǒng)才會分配資源論文。

寫代碼→GPU

編譯代碼→CPU

運(yùn)行測試→CPU

搜索資料→API

這樣不同Agent的任務(wù)可以共享資源論文

剛剛!小米「天才少女」羅福莉發(fā)表新論文,直指AI Agent痛點(diǎn)

實(shí)驗(yàn)結(jié)果顯示,這種調(diào)度方式帶來明顯提升:平均任務(wù)時(shí)間縮短4.3倍,訓(xùn)練效率提升1.5倍,外部資源成本降低71%,

對于正在進(jìn)行大規(guī)模Agent訓(xùn)練的團(tuán)隊(duì)來說,這種效率提升非常關(guān)鍵論文。

如果把最近幾個(gè)月的技術(shù)動向連起來,會看到一條越來越清晰的路線論文

OpenClaw解決的是Agent的運(yùn)行框架問題論文,

Claude Code、Devin解決的是Agent在真實(shí)任務(wù)中的應(yīng)用問題論文

而羅福莉等人做Tangram這樣的研究,則開始解決Agent的底層計(jì)算問題論文。

這說明AI行業(yè)正在經(jīng)歷一個(gè)結(jié)構(gòu)性變化論文,

競爭的焦點(diǎn)正在從模型能力轉(zhuǎn)向Agent系統(tǒng)能力論文。

這也正是為什么OpenClaw、Claude Code、Devin會在今年突然變得如此重要論文。

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E5%B0%BF%E5%A4%B1%E7%A6%81.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩