智譜新年的第一篇論文:GLM-5 技術(shù)報(bào)告解讀來了!

Datawhale干貨

技術(shù)解讀論文:智譜 GLM-5

昨天,智譜開源 GLM-5 技術(shù)報(bào)告,40 頁,副標(biāo)題是“from Vibe Coding to Agentic Engineering”論文。

智譜新年的第一篇論文:GLM-5 技術(shù)報(bào)告解讀來了!

論文鏈接:

Vibe Coding 是什么?是你跟 AI 說「幫我寫個(gè)貪吃蛇」,它給你寫出來論文。

Agentic Engineering 是什么?是你說「這個(gè)系統(tǒng)有個(gè) bug」, AI 自己去找問題、改代碼、跑測(cè)試,全程不用你管論文

從“輔助寫代碼”到“獨(dú)立完成工程任務(wù)”,這個(gè)轉(zhuǎn)變對(duì)模型訓(xùn)練提出了完全不同的要求論文。我們對(duì)這份報(bào)告進(jìn)行了解讀。

一、先看數(shù)據(jù)

GLM-5 發(fā)布后,硅谷頂級(jí)風(fēng)投機(jī)構(gòu) a16z 發(fā)布了一組數(shù)據(jù):開源大模型和頂級(jí)閉源模型之間的能力差距,正在以肉眼可見的速度快速收窄論文。

智譜新年的第一篇論文:GLM-5 技術(shù)報(bào)告解讀來了!

展開全文

正面對(duì)標(biāo)的,就是 GLM-5 和 Claude Opus 4.6論文。

具體來看論文,GLM-5 在幾個(gè)關(guān)鍵評(píng)測(cè)上的表現(xiàn):

SWE-bench Verified 77.8%,開源模型最高論文。這個(gè)測(cè)試要求模型修復(fù)真實(shí) GitHub 倉庫里的 bug。幾萬行代碼的項(xiàng)目,找問題、理解上下文、寫方案、跑通測(cè)試,全流程完成。

BrowseComp 75.9%,這是所有模型里最高的論文。這個(gè)任務(wù)要求模型自己決定搜什么、點(diǎn)哪些鏈接、從多個(gè)網(wǎng)頁提取信息、綜合得出答案。

SWE-bench Verified 77.8%,開源模型最高論文。這個(gè)測(cè)試要求模型修復(fù)真實(shí) GitHub 倉庫里的 bug。幾萬行代碼的項(xiàng)目,找問題、理解上下文、寫方案、跑通測(cè)試,全流程完成。

BrowseComp 75.9%,這是所有模型里最高的論文。這個(gè)任務(wù)要求模型自己決定搜什么、點(diǎn)哪些鏈接、從多個(gè)網(wǎng)頁提取信息、綜合得出答案。

智譜新年的第一篇論文:GLM-5 技術(shù)報(bào)告解讀來了!

Artificial Analysis Intelligence Index 拿了 50 分,開源模型第一次達(dá)到這個(gè)水平論文。

Artificial Analysis Intelligence Index 拿了 50 分,開源模型第一次達(dá)到這個(gè)水平論文。

這些數(shù)據(jù)指向一個(gè)方向:GLM-5 是為 Agent 場(chǎng)景優(yōu)化的論文。從 a16z 的數(shù)據(jù)背書,到 LMArena 的真實(shí)用戶投票,GLM-5 在 coding 和 agentic 能力上,已經(jīng)站到了全球第一梯隊(duì)。

值得一提的是,GLM-5 發(fā)布前做過匿名盲測(cè),代號(hào) Pony Alpha,被很多海外大 V 認(rèn)為是 Claude 或 Grok論文。而且GLM-5 從發(fā)布之初就原生適配了華為昇騰、摩爾線程等七大國(guó)產(chǎn)芯片平臺(tái),完成了從內(nèi)核到框架的深度優(yōu)化。

智譜新年的第一篇論文:GLM-5 技術(shù)報(bào)告解讀來了!

數(shù)據(jù)看完了論文,那么問題來了:要訓(xùn)練出這樣真正能干活的 Agent,首先得解決什么?

GLM-5 沒有特別關(guān)注更大的模型,而是更聰明的擴(kuò)展方式:把 DSA 稀疏注意力和異步強(qiáng)化學(xué)習(xí)結(jié)合起來,用更聰明的方式解決長(zhǎng)程 Agent 任務(wù)論文。

智譜新年的第一篇論文:GLM-5 技術(shù)報(bào)告解讀來了!

在多個(gè)長(zhǎng)程任務(wù)上的結(jié)果論文。左:Vending-Bench 2;右:CC-Bench-V2

一、時(shí)間維度論文:提升Agentic RL的訓(xùn)練效率

Agentic RL 為什么難訓(xùn)練

傳統(tǒng)強(qiáng)化學(xué)習(xí)訓(xùn)練數(shù)學(xué)推理或代碼生成,一個(gè)樣本從生成到獲得反饋只要幾秒論文。模型輸出答案,判題系統(tǒng)給分,結(jié)束。整個(gè)過程在 GPU 集群內(nèi)部完成。

Agent 任務(wù)不一樣論文。模型要修一個(gè) bug,需要先瀏覽代碼庫找相關(guān)文件,理解代碼邏輯,寫修改方案,運(yùn)行測(cè)試,看測(cè)試結(jié)果,如果失敗還要分析錯(cuò)誤繼續(xù)改。

這就產(chǎn)生了嚴(yán)重的資源浪費(fèi):訓(xùn)練用的 GPU 在等論文。等 Agent 執(zhí)行完任務(wù),等數(shù)據(jù)回來,才能繼續(xù)訓(xùn)練。

傳統(tǒng)的同步強(qiáng)化學(xué)習(xí)框架在這種場(chǎng)景下效率很低論文。你可以加更多 GPU,但 GPU 還是在等,因?yàn)槠款i不在計(jì)算,在外部環(huán)境的響應(yīng)時(shí)間。

這是暴力擴(kuò)展解決不了的問題論文。

Slime論文:把生成和訓(xùn)練拆開

GLM-5 團(tuán)隊(duì)的解法是讓生成和訓(xùn)練完全獨(dú)立運(yùn)行論文。

Slime 框架分兩部分論文

Rollout 集群專門負(fù)責(zé)執(zhí)行 Agent 任務(wù)論文。這些服務(wù)器各自獨(dú)立,每臺(tái)跑一個(gè)或多個(gè)任務(wù)。任務(wù)完成后把完整軌跡(模型的每步操作、環(huán)境的每次反饋)打包發(fā)送出去。

訓(xùn)練集群專門負(fù)責(zé)更新模型參數(shù)論文。收到軌跡數(shù)據(jù)就立刻訓(xùn)練,不等新任務(wù)執(zhí)行完成。

Rollout 集群專門負(fù)責(zé)執(zhí)行 Agent 任務(wù)論文。這些服務(wù)器各自獨(dú)立,每臺(tái)跑一個(gè)或多個(gè)任務(wù)。任務(wù)完成后把完整軌跡(模型的每步操作、環(huán)境的每次反饋)打包發(fā)送出去。

訓(xùn)練集群專門負(fù)責(zé)更新模型參數(shù)論文。收到軌跡數(shù)據(jù)就立刻訓(xùn)練,不等新任務(wù)執(zhí)行完成。

核心是:兩邊不互相等待論文。Rollout 集群持續(xù)產(chǎn)生數(shù)據(jù),訓(xùn)練集群持續(xù)消化數(shù)據(jù)。

但這種異步設(shè)計(jì)帶來兩個(gè)新問題論文。

第一個(gè)是 token 對(duì)齊論文。

Rollout 集群用的模型版本和訓(xùn)練集群用的可能不一樣論文。比如 Rollout 用 1.3 版本生成數(shù)據(jù),等數(shù)據(jù)到訓(xùn)練集群,模型已經(jīng)更新到 1.5 了。

如果直接把 1.3 版本的 token 序列拿給 1.5 版本訓(xùn)練,可能出問題論文。因?yàn)閮蓚€(gè)版本的分詞器可能不完全一致,新版本可能加了特殊 token。

這時(shí),Slime 加了個(gè) TITO(Token-In-Token-Out)網(wǎng)關(guān)論文。不管收到哪個(gè)版本的 token,都先還原成原始文本,再用當(dāng)前訓(xùn)練版本的分詞器重新編碼。

第二個(gè)是離策略訓(xùn)練的穩(wěn)定性論文。

因?yàn)樯蓴?shù)據(jù)的模型和訓(xùn)練時(shí)的模型不是同一版本,訓(xùn)練集群收到的是“舊策略”產(chǎn)生的數(shù)據(jù)論文。用舊策略數(shù)據(jù)訓(xùn)練新策略,如果處理不當(dāng),訓(xùn)練會(huì)不穩(wěn)定甚至崩潰。

Slime 用“雙側(cè)重要性采樣”來控制:在 token 級(jí)別和樣本級(jí)別都做重要性加權(quán),既能利用歷史數(shù)據(jù),又不會(huì)讓極端樣本把訓(xùn)練帶偏論文。

訓(xùn)練效率問題,是所有做 Agent RL 的團(tuán)隊(duì)都會(huì)遇到論文。目前,整個(gè) Slime 框架已經(jīng)開源,其他團(tuán)隊(duì)可以直接在這基礎(chǔ)上繼續(xù)探索。

空間維度論文:Agent 的上下文太長(zhǎng)

Slime 解決了訓(xùn)練效率,但 Agent 還有另一個(gè)麻煩:上下文太長(zhǎng)論文。

修 bug 要讀幾十個(gè)代碼文件,深度搜索要瀏覽幾十個(gè)網(wǎng)頁論文。這些內(nèi)容加起來,上下文輕松超過 10 萬 token。標(biāo)準(zhǔn)注意力機(jī)制的計(jì)算復(fù)雜度是 O(L2),當(dāng) L=200K 時(shí),計(jì)算量大到難以承受。

1. 選擇重要的 token

此時(shí),GLM-5 采用了 DeepSeek 提出的 DSA 來降低成本論文。DSA 的思路是用一個(gè)輕量級(jí)索引器動(dòng)態(tài)判斷哪些 token 最重要,然后只對(duì)這些 token 做注意力計(jì)算。

報(bào)告說 DSA 能把長(zhǎng)序列注意力計(jì)算降低 1.5-2 倍論文。對(duì) 20 萬 token 的上下文,可以用一半成本完成相同工作。這樣,就不需要處理更多的 token 了。

2. 確定性 vs 速度

在實(shí)際使用 DSA 時(shí),GLM-5 團(tuán)隊(duì)遇到了一個(gè)新問題:強(qiáng)化學(xué)習(xí)訓(xùn)練不穩(wěn)定論文

問題出在 DSA 的 top-k 算子上論文。DSA 需要從所有 token 中選出最重要的 k 個(gè)來計(jì)算注意力。如果用 CUDA 優(yōu)化的 top-k 實(shí)現(xiàn),速度快,但輸出是非確定性的——同樣的輸入,每次運(yùn)行可能選出不同的 token。

這在推理時(shí)問題不大,但在強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)會(huì)出大問題論文。因?yàn)閺?qiáng)化學(xué)習(xí)需要計(jì)算策略的概率比值,如果同樣的輸入每次輸出不一樣,概率就對(duì)不上,訓(xùn)練幾步后性能就會(huì)急劇下降。

GLM-5 團(tuán)隊(duì)的解法是換成 PyTorch 原生的 torch.topk論文。這個(gè)實(shí)現(xiàn)比 CUDA 版本慢一點(diǎn),但輸出是確定性的——同樣的輸入,每次選出的 token 都一樣。用了確定性 top-k 后,強(qiáng)化學(xué)習(xí)訓(xùn)練才穩(wěn)定下來。

這個(gè)選擇很有意思:為了訓(xùn)練穩(wěn)定,犧牲了一部分推理速度論文。但這個(gè) trade-off 是值得的——訓(xùn)練是一次性成本,推理是持續(xù)成本。更重要的是,這暴露了一個(gè)問題:很多為推理優(yōu)化的技術(shù),不一定適合訓(xùn)練。

同時(shí),GLM-5 在強(qiáng)化學(xué)習(xí)訓(xùn)練時(shí)凍結(jié)了 DSA 索引器的參數(shù),只更新模型主體論文。這樣既加速了訓(xùn)練,也避免了索引器在訓(xùn)練中出現(xiàn)不穩(wěn)定的學(xué)習(xí)行為。

這個(gè)發(fā)現(xiàn)挺重要的論文。DSA 本身是 DeepSeek 提出的,但怎么在 RL 的場(chǎng)景下用好 DSA, GLM-5 團(tuán)隊(duì)踩了坑才找到答案。

3. 更好的管理上下文

降低了計(jì)算成本論文,保證了訓(xùn)練穩(wěn)定,但長(zhǎng)上下文還有個(gè)問題:怎么用好?

GLM-5 設(shè)計(jì)了三種思考模式論文

智譜新年的第一篇論文:GLM-5 技術(shù)報(bào)告解讀來了!

交錯(cuò)思考:每輪都思考論文,但內(nèi)容簡(jiǎn)短

保留思考:只在第一輪深度思考論文,后續(xù)直接執(zhí)行

輪次級(jí)思考:每輪獨(dú)立思考論文,上一輪的思考會(huì)被清除

交錯(cuò)思考:每輪都思考論文,但內(nèi)容簡(jiǎn)短

保留思考:只在第一輪深度思考論文,后續(xù)直接執(zhí)行

輪次級(jí)思考:每輪獨(dú)立思考論文,上一輪的思考會(huì)被清除

在 SWE-bench 上,輪次級(jí)思考比交錯(cuò)思考效果好 2 個(gè)百分點(diǎn)論文。原因是 SWE-bench 需要很多輪交互,交錯(cuò)思考的內(nèi)容會(huì)占用太多空間,擠掉代碼和測(cè)試結(jié)果。

在搜索任務(wù)上,GLM-5 用了「Keep-recent-k」策略:當(dāng)交互歷史超過一定長(zhǎng)度,只保留最近 k 輪的工具調(diào)用內(nèi)容(k=5)論文。這個(gè)策略把 BrowseComp 分?jǐn)?shù)從 55.3% 提升到 62.0%。進(jìn)一步,他們引入“混合層次管理”:如果總上下文超過 32K,就完全清空工具調(diào)用歷史重新開始,但繼續(xù)應(yīng)用 Keep-recent-k。最終達(dá)到 75.9%,所有模型最高。

核心思想是:長(zhǎng)上下文越長(zhǎng)越好?不對(duì)論文。 關(guān)鍵是在有限空間里保留最關(guān)鍵的信息。

GLM-5 的完整訓(xùn)練方案

解決了訓(xùn)練效率和長(zhǎng)上下文這兩個(gè)核心問題,我們把視角拉回來論文。要訓(xùn)練出真正能干活的 Agent,GLM-5 的構(gòu)建了一套完整的訓(xùn)練體系。

智譜新年的第一篇論文:GLM-5 技術(shù)報(bào)告解讀來了!

1. 分層訓(xùn)練不同能力

GLM-5 的強(qiáng)化學(xué)習(xí)分三個(gè)階段論文

Reasoning RL:訓(xùn)練推理能力,用數(shù)學(xué)題、科學(xué)問題、算法競(jìng)賽這類有標(biāo)準(zhǔn)答案的任務(wù)論文

Agentic RL:訓(xùn)練 Agent 能力,用真實(shí)軟件工程任務(wù)、終端操作、多步搜索任務(wù)論文。這里用的就是 Slime 框架。

General RL:訓(xùn)練對(duì)話能力,用開放式對(duì)話、創(chuàng)意寫作、角色扮演等任務(wù)論文。

Reasoning RL:訓(xùn)練推理能力,用數(shù)學(xué)題、科學(xué)問題、算法競(jìng)賽這類有標(biāo)準(zhǔn)答案的任務(wù)論文。

Agentic RL:訓(xùn)練 Agent 能力,用真實(shí)軟件工程任務(wù)、終端操作、多步搜索任務(wù)論文。這里用的就是 Slime 框架。

General RL:訓(xùn)練對(duì)話能力,用開放式對(duì)話、創(chuàng)意寫作、角色扮演等任務(wù)論文。

這個(gè)順序很重要論文。推理能力是基礎(chǔ),Agent 能力建立在推理之上,對(duì)話能力最容易被遺忘所以放最后。Reasoning → Agentic → General, GLM-5 把能力分了層。

神經(jīng)網(wǎng)絡(luò)有個(gè)特性叫“災(zāi)難性遺忘”:學(xué)習(xí)新任務(wù)時(shí)會(huì)部分忘記舊任務(wù)論文。如果先訓(xùn)練對(duì)話再訓(xùn)練編程,對(duì)話能力可能退化。

GLM-5 用“跨階段蒸餾”來緩解論文。在第二階段訓(xùn)練時(shí),把第一階段的最佳模型當(dāng)“教師”,讓正在訓(xùn)練的模型在學(xué)新能力的同時(shí)保持舊能力。

效果很明顯論文。不做蒸餾,從 Agentic RL 進(jìn)入 General RL 后,SWE-bench 分?jǐn)?shù)從 77.8% 掉到 73.2%。做了蒸餾,分?jǐn)?shù)基本不掉。

GLM 團(tuán)隊(duì)沒有選擇一次性訓(xùn)練所有能力,而是分層訓(xùn)練、逐步疊加論文。

2. 著重構(gòu)建訓(xùn)練環(huán)境

這套訓(xùn)練體系的背后,設(shè)計(jì)了一個(gè)大量可驗(yàn)證的訓(xùn)練環(huán)境論文

軟件工程任務(wù):GLM-5 團(tuán)隊(duì)收集了大量 GitHub Issue-PR 對(duì),用 RepoLaunch 框架自動(dòng)構(gòu)建可執(zhí)行環(huán)境論文。這個(gè)流程會(huì)分析依賴、生成安裝腳本、提取測(cè)試命令、用 LLM 生成日志解析函數(shù)判斷測(cè)試是否通過。最終構(gòu)建了超過 1 萬個(gè)可驗(yàn)證環(huán)境,覆蓋 9 種編程語言。

終端任務(wù):設(shè)計(jì)了三階段數(shù)據(jù)合成流程:LLM 生成任務(wù)草稿→構(gòu)建 Agent 實(shí)例化為 Docker 環(huán)境和測(cè)試腳本→精煉 Agent 檢查優(yōu)化論文。產(chǎn)生數(shù)千個(gè)可驗(yàn)證任務(wù),Docker 構(gòu)建成功率超 90%。

搜索任務(wù):從早期搜索 Agent 軌跡中收集 200 萬+高質(zhì)量網(wǎng)頁,用 LLM 提取實(shí)體關(guān)系構(gòu)建知識(shí)圖譜論文。從圖譜中選低頻實(shí)體作種子,擴(kuò)展多跳鄰域,生成需要多步推理的問題。生成的問題經(jīng)過三輪篩選:去掉太簡(jiǎn)單的、太難的、答案不唯一的。

軟件工程任務(wù):GLM-5 團(tuán)隊(duì)收集了大量 GitHub Issue-PR 對(duì),用 RepoLaunch 框架自動(dòng)構(gòu)建可執(zhí)行環(huán)境論文。這個(gè)流程會(huì)分析依賴、生成安裝腳本、提取測(cè)試命令、用 LLM 生成日志解析函數(shù)判斷測(cè)試是否通過。最終構(gòu)建了超過 1 萬個(gè)可驗(yàn)證環(huán)境,覆蓋 9 種編程語言。

終端任務(wù):設(shè)計(jì)了三階段數(shù)據(jù)合成流程:LLM 生成任務(wù)草稿→構(gòu)建 Agent 實(shí)例化為 Docker 環(huán)境和測(cè)試腳本→精煉 Agent 檢查優(yōu)化論文。產(chǎn)生數(shù)千個(gè)可驗(yàn)證任務(wù),Docker 構(gòu)建成功率超 90%。

搜索任務(wù):從早期搜索 Agent 軌跡中收集 200 萬+高質(zhì)量網(wǎng)頁,用 LLM 提取實(shí)體關(guān)系構(gòu)建知識(shí)圖譜論文。從圖譜中選低頻實(shí)體作種子,擴(kuò)展多跳鄰域,生成需要多步推理的問題。生成的問題經(jīng)過三輪篩選:去掉太簡(jiǎn)單的、太難的、答案不唯一的。

這些環(huán)境是 Agent RL 訓(xùn)練的基礎(chǔ)論文。沒有可驗(yàn)證的環(huán)境,就沒法自動(dòng)給出獎(jiǎng)勵(lì)信號(hào)。

1 萬個(gè)可驗(yàn)證環(huán)境,數(shù)千個(gè) Docker 任務(wù),200 萬+網(wǎng)頁知識(shí)圖譜——GLM 團(tuán)隊(duì)在此投入了很多論文。

3. 高效優(yōu)化基座模型

訓(xùn)練體系搭好了,環(huán)境也構(gòu)建完成,但還有個(gè)前提:基座本身得足夠強(qiáng)論文。

GLM-5 在預(yù)訓(xùn)練階段做了兩個(gè)工程優(yōu)化, 讓原本不兼容的技術(shù)能夠協(xié)同工作論文

一個(gè)是讓 MLA 和 Muon 配合工作論文。這兩個(gè)技術(shù)單獨(dú)用都很好,但組合起來會(huì)沖突:MLA 要“合”, Muon 要“分”。GLM-5 團(tuán)隊(duì)的解法叫“Muon Split”:在優(yōu)化時(shí)先把 MLA 壓縮的表示按注意力頭拆開,讓 Muon 對(duì)每個(gè)頭獨(dú)立優(yōu)化,優(yōu)化完再合并。實(shí)驗(yàn)顯示這個(gè)改動(dòng)讓 MLA+Muon 達(dá)到了和標(biāo)準(zhǔn) GQA 相當(dāng)?shù)男阅埽瑫r(shí)保留了 MLA 的顯存和速度優(yōu)勢(shì)。

在 GQA-8 和 MLA 等各變體上的評(píng)估結(jié)果

另一個(gè)是參數(shù)共享的多 token 預(yù)測(cè)論文。GLM-5 用 3 個(gè)預(yù)測(cè)層,但這 3 層共享參數(shù)。共享參數(shù)強(qiáng)迫模型學(xué)習(xí)更通用的“多步預(yù)測(cè)”能力。測(cè)試顯示,在相同推測(cè)步數(shù)下,GLM-5 的接受長(zhǎng)度比 DeepSeek-V3 高約 8%。

寫在最后

回到副標(biāo)題的問題:從 Vibe Coding 到 Agentic Engineering論文,這個(gè)轉(zhuǎn)變意味著什么?

意味著 AI 訓(xùn)練的擴(kuò)展方式變了論文。

以前,訓(xùn)練一個(gè)模型,核心是暴力擴(kuò)展論文。更大的模型、更多的數(shù)據(jù)、更長(zhǎng)的訓(xùn)練時(shí)間。模型訓(xùn)練完,發(fā)布權(quán)重,就結(jié)束了。

現(xiàn)在,訓(xùn)練一個(gè) Agent,核心是聰明擴(kuò)展論文。異步架構(gòu)(Slime)解決時(shí)間維度問題,稀疏注意力(DSA)解決空間維度問題,能力分層訓(xùn)練、大量可驗(yàn)證的環(huán)境、基座優(yōu)化——每一個(gè)都是在用更聰明的方式,而不是更大的規(guī)模。

更重要的是,智譜的這套方案開源了論文。Agent 訓(xùn)練從此不再是少數(shù)團(tuán)隊(duì)的黑箱實(shí)驗(yàn),而是可以被復(fù)制、被改進(jìn)、被超越的工程實(shí)踐。

模型能力可以追趕,工程范式的開放,才能讓整個(gè)生態(tài)往前走論文

一起“ 點(diǎn) 贊 ” 三連 ↓

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請(qǐng)與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E6%9C%83%E5%AE%A2%E5%BB%B3.html

?? 簡(jiǎn) /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩