亚洲精品国产精品乱码不卡99,国产小屁孩cao大人在线播放,国产精品精品免费看,久久久久国产AV一区二区精品

Datawhale干貨

技術(shù)解讀論文：智譜 GLM-5

昨天，智譜開源 GLM-5 技術(shù)報告，40 頁，副標題是“from Vibe Coding to Agentic Engineering”論文。

論文鏈接：

Vibe Coding 是什么？是你跟 AI 說「幫我寫個貪吃蛇」，它給你寫出來論文。

Agentic Engineering 是什么？是你說「這個系統(tǒng)有個 bug」, AI 自己去找問題、改代碼、跑測試，全程不用你管論文。

從“輔助寫代碼”到“獨立完成工程任務”，這個轉(zhuǎn)變對模型訓練提出了完全不同的要求論文。我們對這份報告進行了解讀。

一、先看數(shù)據(jù)

GLM-5 發(fā)布后，硅谷頂級風投機構(gòu) a16z 發(fā)布了一組數(shù)據(jù)：開源大模型和頂級閉源模型之間的能力差距，正在以肉眼可見的速度快速收窄論文。

展開全文

正面對標的，就是 GLM-5 和 Claude Opus 4.6論文。

具體來看論文，GLM-5 在幾個關(guān)鍵評測上的表現(xiàn)：

SWE-bench Verified 77.8%，開源模型最高論文。這個測試要求模型修復真實 GitHub 倉庫里的 bug。幾萬行代碼的項目，找問題、理解上下文、寫方案、跑通測試，全流程完成。

BrowseComp 75.9%，這是所有模型里最高的論文。這個任務要求模型自己決定搜什么、點哪些鏈接、從多個網(wǎng)頁提取信息、綜合得出答案。

Artificial Analysis Intelligence Index 拿了 50 分，開源模型第一次達到這個水平論文。

這些數(shù)據(jù)指向一個方向：GLM-5 是為 Agent 場景優(yōu)化的論文。從 a16z 的數(shù)據(jù)背書，到 LMArena 的真實用戶投票，GLM-5 在 coding 和 agentic 能力上，已經(jīng)站到了全球第一梯隊。

值得一提的是，GLM-5 發(fā)布前做過匿名盲測，代號 Pony Alpha，被很多海外大 V 認為是 Claude 或 Grok論文。而且GLM-5 從發(fā)布之初就原生適配了華為昇騰、摩爾線程等七大國產(chǎn)芯片平臺，完成了從內(nèi)核到框架的深度優(yōu)化。

數(shù)據(jù)看完了論文，那么問題來了：要訓練出這樣真正能干活的 Agent，首先得解決什么？

GLM-5 沒有特別關(guān)注更大的模型，而是更聰明的擴展方式：把 DSA 稀疏注意力和異步強化學習結(jié)合起來，用更聰明的方式解決長程 Agent 任務論文。

在多個長程任務上的結(jié)果論文。左：Vending-Bench 2；右：CC-Bench-V2

一、時間維度論文：提升Agentic RL的訓練效率

Agentic RL 為什么難訓練

傳統(tǒng)強化學習訓練數(shù)學推理或代碼生成，一個樣本從生成到獲得反饋只要幾秒論文。模型輸出答案，判題系統(tǒng)給分，結(jié)束。整個過程在 GPU 集群內(nèi)部完成。

Agent 任務不一樣論文。模型要修一個 bug，需要先瀏覽代碼庫找相關(guān)文件，理解代碼邏輯，寫修改方案，運行測試，看測試結(jié)果，如果失敗還要分析錯誤繼續(xù)改。

這就產(chǎn)生了嚴重的資源浪費：訓練用的 GPU 在等論文。等 Agent 執(zhí)行完任務，等數(shù)據(jù)回來，才能繼續(xù)訓練。

傳統(tǒng)的同步強化學習框架在這種場景下效率很低論文。你可以加更多 GPU，但 GPU 還是在等，因為瓶頸不在計算，在外部環(huán)境的響應時間。

這是暴力擴展解決不了的問題論文。

Slime論文：把生成和訓練拆開

GLM-5 團隊的解法是讓生成和訓練完全獨立運行論文。

Slime 框架分兩部分論文：

Rollout 集群專門負責執(zhí)行 Agent 任務論文。這些服務器各自獨立，每臺跑一個或多個任務。任務完成后把完整軌跡（模型的每步操作、環(huán)境的每次反饋）打包發(fā)送出去。

訓練集群專門負責更新模型參數(shù)論文。收到軌跡數(shù)據(jù)就立刻訓練，不等新任務執(zhí)行完成。

核心是：兩邊不互相等待論文。Rollout 集群持續(xù)產(chǎn)生數(shù)據(jù)，訓練集群持續(xù)消化數(shù)據(jù)。

但這種異步設計帶來兩個新問題論文。

第一個是 token 對齊論文。

Rollout 集群用的模型版本和訓練集群用的可能不一樣論文。比如 Rollout 用 1.3 版本生成數(shù)據(jù)，等數(shù)據(jù)到訓練集群，模型已經(jīng)更新到 1.5 了。

如果直接把 1.3 版本的 token 序列拿給 1.5 版本訓練，可能出問題論文。因為兩個版本的分詞器可能不完全一致，新版本可能加了特殊 token。

這時，Slime 加了個 TITO(Token-In-Token-Out）網(wǎng)關(guān)論文。不管收到哪個版本的 token，都先還原成原始文本，再用當前訓練版本的分詞器重新編碼。

第二個是離策略訓練的穩(wěn)定性論文。

因為生成數(shù)據(jù)的模型和訓練時的模型不是同一版本，訓練集群收到的是“舊策略”產(chǎn)生的數(shù)據(jù)論文。用舊策略數(shù)據(jù)訓練新策略，如果處理不當，訓練會不穩(wěn)定甚至崩潰。

Slime 用“雙側(cè)重要性采樣”來控制：在 token 級別和樣本級別都做重要性加權(quán)，既能利用歷史數(shù)據(jù)，又不會讓極端樣本把訓練帶偏論文。

訓練效率問題，是所有做 Agent RL 的團隊都會遇到論文。目前，整個 Slime 框架已經(jīng)開源，其他團隊可以直接在這基礎上繼續(xù)探索。

空間維度論文：Agent 的上下文太長

Slime 解決了訓練效率，但 Agent 還有另一個麻煩：上下文太長論文。

修 bug 要讀幾十個代碼文件，深度搜索要瀏覽幾十個網(wǎng)頁論文。這些內(nèi)容加起來，上下文輕松超過 10 萬 token。標準注意力機制的計算復雜度是 O(L2)，當 L=200K 時，計算量大到難以承受。

1. 選擇重要的 token

此時，GLM-5 采用了 DeepSeek 提出的 DSA 來降低成本論文。DSA 的思路是用一個輕量級索引器動態(tài)判斷哪些 token 最重要，然后只對這些 token 做注意力計算。

報告說 DSA 能把長序列注意力計算降低 1.5-2 倍論文。對 20 萬 token 的上下文，可以用一半成本完成相同工作。這樣，就不需要處理更多的 token 了。

2. 確定性 vs 速度

在實際使用 DSA 時，GLM-5 團隊遇到了一個新問題：強化學習訓練不穩(wěn)定論文。

問題出在 DSA 的 top-k 算子上論文。DSA 需要從所有 token 中選出最重要的 k 個來計算注意力。如果用 CUDA 優(yōu)化的 top-k 實現(xiàn)，速度快，但輸出是非確定性的——同樣的輸入，每次運行可能選出不同的 token。

這在推理時問題不大，但在強化學習訓練時會出大問題論文。因為強化學習需要計算策略的概率比值，如果同樣的輸入每次輸出不一樣，概率就對不上，訓練幾步后性能就會急劇下降。

GLM-5 團隊的解法是換成 PyTorch 原生的 torch.topk論文。這個實現(xiàn)比 CUDA 版本慢一點，但輸出是確定性的——同樣的輸入，每次選出的 token 都一樣。用了確定性 top-k 后，強化學習訓練才穩(wěn)定下來。

這個選擇很有意思：為了訓練穩(wěn)定，犧牲了一部分推理速度論文。但這個 trade-off 是值得的——訓練是一次性成本，推理是持續(xù)成本。更重要的是，這暴露了一個問題：很多為推理優(yōu)化的技術(shù)，不一定適合訓練。

同時，GLM-5 在強化學習訓練時凍結(jié)了 DSA 索引器的參數(shù)，只更新模型主體論文。這樣既加速了訓練，也避免了索引器在訓練中出現(xiàn)不穩(wěn)定的學習行為。

這個發(fā)現(xiàn)挺重要的論文。DSA 本身是 DeepSeek 提出的，但怎么在 RL 的場景下用好 DSA, GLM-5 團隊踩了坑才找到答案。

3. 更好的管理上下文

降低了計算成本論文，保證了訓練穩(wěn)定，但長上下文還有個問題：怎么用好？

GLM-5 設計了三種思考模式論文：

交錯思考：每輪都思考論文，但內(nèi)容簡短

保留思考：只在第一輪深度思考論文，后續(xù)直接執(zhí)行

輪次級思考：每輪獨立思考論文，上一輪的思考會被清除

交錯思考：每輪都思考論文，但內(nèi)容簡短

保留思考：只在第一輪深度思考論文，后續(xù)直接執(zhí)行

輪次級思考：每輪獨立思考論文，上一輪的思考會被清除

在 SWE-bench 上，輪次級思考比交錯思考效果好 2 個百分點論文。原因是 SWE-bench 需要很多輪交互，交錯思考的內(nèi)容會占用太多空間，擠掉代碼和測試結(jié)果。

在搜索任務上，GLM-5 用了「Keep-recent-k」策略：當交互歷史超過一定長度，只保留最近 k 輪的工具調(diào)用內(nèi)容（k=5）論文。這個策略把 BrowseComp 分數(shù)從 55.3% 提升到 62.0%。進一步，他們引入“混合層次管理”：如果總上下文超過 32K，就完全清空工具調(diào)用歷史重新開始，但繼續(xù)應用 Keep-recent-k。最終達到 75.9%，所有模型最高。

核心思想是：長上下文越長越好？不對論文。關(guān)鍵是在有限空間里保留最關(guān)鍵的信息。

GLM-5 的完整訓練方案

解決了訓練效率和長上下文這兩個核心問題，我們把視角拉回來論文。要訓練出真正能干活的 Agent，GLM-5 的構(gòu)建了一套完整的訓練體系。

1. 分層訓練不同能力

GLM-5 的強化學習分三個階段論文：

Reasoning RL：訓練推理能力，用數(shù)學題、科學問題、算法競賽這類有標準答案的任務論文。

Agentic RL：訓練 Agent 能力，用真實軟件工程任務、終端操作、多步搜索任務論文。這里用的就是 Slime 框架。

General RL：訓練對話能力，用開放式對話、創(chuàng)意寫作、角色扮演等任務論文。

Reasoning RL：訓練推理能力，用數(shù)學題、科學問題、算法競賽這類有標準答案的任務論文。

Agentic RL：訓練 Agent 能力，用真實軟件工程任務、終端操作、多步搜索任務論文。這里用的就是 Slime 框架。

General RL：訓練對話能力，用開放式對話、創(chuàng)意寫作、角色扮演等任務論文。

這個順序很重要論文。推理能力是基礎，Agent 能力建立在推理之上，對話能力最容易被遺忘所以放最后。Reasoning → Agentic → General, GLM-5 把能力分了層。

神經(jīng)網(wǎng)絡有個特性叫“災難性遺忘”：學習新任務時會部分忘記舊任務論文。如果先訓練對話再訓練編程，對話能力可能退化。

GLM-5 用“跨階段蒸餾”來緩解論文。在第二階段訓練時，把第一階段的最佳模型當“教師”，讓正在訓練的模型在學新能力的同時保持舊能力。

效果很明顯論文。不做蒸餾，從 Agentic RL 進入 General RL 后，SWE-bench 分數(shù)從 77.8% 掉到 73.2%。做了蒸餾，分數(shù)基本不掉。

GLM 團隊沒有選擇一次性訓練所有能力，而是分層訓練、逐步疊加論文。

2. 著重構(gòu)建訓練環(huán)境

這套訓練體系的背后，設計了一個大量可驗證的訓練環(huán)境論文。

軟件工程任務：GLM-5 團隊收集了大量 GitHub Issue-PR 對，用 RepoLaunch 框架自動構(gòu)建可執(zhí)行環(huán)境論文。這個流程會分析依賴、生成安裝腳本、提取測試命令、用 LLM 生成日志解析函數(shù)判斷測試是否通過。最終構(gòu)建了超過 1 萬個可驗證環(huán)境，覆蓋 9 種編程語言。

終端任務：設計了三階段數(shù)據(jù)合成流程：LLM 生成任務草稿→構(gòu)建 Agent 實例化為 Docker 環(huán)境和測試腳本→精煉 Agent 檢查優(yōu)化論文。產(chǎn)生數(shù)千個可驗證任務，Docker 構(gòu)建成功率超 90%。

搜索任務：從早期搜索 Agent 軌跡中收集 200 萬+高質(zhì)量網(wǎng)頁，用 LLM 提取實體關(guān)系構(gòu)建知識圖譜論文。從圖譜中選低頻實體作種子，擴展多跳鄰域，生成需要多步推理的問題。生成的問題經(jīng)過三輪篩選：去掉太簡單的、太難的、答案不唯一的。

這些環(huán)境是 Agent RL 訓練的基礎論文。沒有可驗證的環(huán)境，就沒法自動給出獎勵信號。

1 萬個可驗證環(huán)境，數(shù)千個 Docker 任務，200 萬+網(wǎng)頁知識圖譜——GLM 團隊在此投入了很多論文。

3. 高效優(yōu)化基座模型

訓練體系搭好了，環(huán)境也構(gòu)建完成，但還有個前提：基座本身得足夠強論文。

GLM-5 在預訓練階段做了兩個工程優(yōu)化，讓原本不兼容的技術(shù)能夠協(xié)同工作論文。

一個是讓 MLA 和 Muon 配合工作論文。這兩個技術(shù)單獨用都很好，但組合起來會沖突：MLA 要“合”, Muon 要“分”。GLM-5 團隊的解法叫“Muon Split”：在優(yōu)化時先把 MLA 壓縮的表示按注意力頭拆開，讓 Muon 對每個頭獨立優(yōu)化，優(yōu)化完再合并。實驗顯示這個改動讓 MLA+Muon 達到了和標準 GQA 相當?shù)男阅?，同時保留了 MLA 的顯存和速度優(yōu)勢。

在 GQA-8 和 MLA 等各變體上的評估結(jié)果

另一個是參數(shù)共享的多 token 預測論文。GLM-5 用 3 個預測層，但這 3 層共享參數(shù)。共享參數(shù)強迫模型學習更通用的“多步預測”能力。測試顯示，在相同推測步數(shù)下，GLM-5 的接受長度比 DeepSeek-V3 高約 8%。

寫在最后

回到副標題的問題：從 Vibe Coding 到 Agentic Engineering論文，這個轉(zhuǎn)變意味著什么？

意味著 AI 訓練的擴展方式變了論文。

以前，訓練一個模型，核心是暴力擴展論文。更大的模型、更多的數(shù)據(jù)、更長的訓練時間。模型訓練完，發(fā)布權(quán)重，就結(jié)束了。

現(xiàn)在，訓練一個 Agent，核心是聰明擴展論文。異步架構(gòu)（Slime）解決時間維度問題，稀疏注意力（DSA）解決空間維度問題，能力分層訓練、大量可驗證的環(huán)境、基座優(yōu)化——每一個都是在用更聰明的方式，而不是更大的規(guī)模。

更重要的是，智譜的這套方案開源了論文。Agent 訓練從此不再是少數(shù)團隊的黑箱實驗，而是可以被復制、被改進、被超越的工程實踐。

模型能力可以追趕，工程范式的開放，才能讓整個生態(tài)往前走論文。

一起“ 點贊 ” 三連 ↓

智譜新年的第一篇論文：GLM-5 技術(shù)報告解讀來了！

海之嵐財稅公司

熱門標簽

相關(guān)詞匯

分站導航