国产精品国产亚洲区在线观看,欧美日韩国产中文精品字幕自在自线,欧美精品一区二区国产,国产黄片一二三在线观看

作者 | 木子

說起 AI Coding，之前很多人好歹還有個“心理安慰”：AI 也就寫寫“腳手架代碼”、補補前端頁面，真到核心算法、業(yè)務邏輯，還是得人來論文。

但這道“最后防線”，也正在松動論文。

谷歌 DeepMind最近做了一件更狠的事：他們讓 LLM 驅(qū)動的智能體，直接去改寫、進化算法代碼本身——不是調(diào)參數(shù)，而是改算法邏輯論文。

改完就丟進真實博弈環(huán)境里反復跑，自動評測、優(yōu)勝劣汰，一輪輪進化論文。

結(jié)果呢？它真的做出了全新的多智能體學習算法，在多項測試中超過了人類專家手工打磨的版本論文。

重要的是，這些機制并不直觀，屬于人類很難靠經(jīng)驗窮舉出來的解論文。

更關(guān)鍵的是：人只用定義好了算法骨架，之后的搜索、修改、篩選，全程自動完成，不用手調(diào)參數(shù)，不用反復試錯，也不靠研究者的直覺微調(diào)論文。

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網(wǎng)友：這可能就是“王牌”

這個智能體叫 AlphaEvolve，延續(xù)了 DeepMind 一貫的“Alpha”命名傳統(tǒng)（AlphaGo、AlphaZero、AlphaFold）論文。其中 “Evolve” 意為“進化”，點明它的核心機制：通過類似生物進化的方式不斷改寫和篩選算法。

這個 AlphaEvolve 本身去年就有，但這是它第一次被用來學習算法論文。

它把 Gemini 系列大模型，和進化搜索結(jié)合起來，把代碼不斷生成、測試、篩選、再進化論文。

展開全文

DeepMind 把把研究過程和成果寫成了一篇 37 頁的論文，題為《基于大語言模型的多智能體學習算法自動發(fā)現(xiàn)》（Discovering Multiagent Learning Algorithms with Large Language Models），一發(fā)出來就炸了技術(shù)圈論文。

有網(wǎng)友看完直呼，這玩意真挺“可怕”的：

“這看起來像是 DeepMind 手中的一張王牌，我認為它可能導致谷歌贏得比賽論文。”

“這看起來像是 DeepMind 手中的一張王牌，我認為它可能導致谷歌贏得比賽論文?！?/p> DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網(wǎng)友：這可能就是“王牌”

有人銳評：

“這就像教一個孩子讀書，然后看著它自己編寫教科書論文?！?/p>

還有人已經(jīng)開始往更遠處想：既然 AI 已經(jīng)能設(shè)計更好的學習算法，那或許它也該先給自己設(shè)計一套更完善的“倫理引擎”，在 ASI 真正爆發(fā)之前，先把對齊這件事想清楚論文。

人只選定算法框架，

AI 全自動閉環(huán)進化

來展開看看實驗設(shè)計和操作過程論文。

需要說明的是論文，研究團隊沒有讓模型“從零寫算法”，而是選定兩個成熟框架：

CFR（后悔最小化）： CFR 算法族，依賴遞歸定義來累積后悔值并構(gòu)建平均策略論文。

PSRO（策略種群訓練）：通過迭代計算最優(yōu)響應并求解元策略，不斷擴展策略種群論文。

CFR（后悔最小化）： CFR 算法族，依賴遞歸定義來累積后悔值并構(gòu)建平均策略論文。

PSRO（策略種群訓練）：通過迭代計算最優(yōu)響應并求解元策略，不斷擴展策略種群論文。

過去，在不完全信息博弈求解（比如撲克）中，像 CFR、PSRO 這些經(jīng)典算法雖然理論扎實，但真正好用的“升級版”，還是要靠人類專家一點點憑經(jīng)驗調(diào)參、改規(guī)則、試出來論文。

然后，研究人員把算法核心邏輯，拆成幾個可被改寫的 Python 函數(shù)，例如：regret 累積規(guī)則、當前策略生成方式、平均策略更新規(guī)則、PSRO 的 meta-solver 邏輯論文。

也就是說，他們只開放了“關(guān)鍵決策邏輯”給 LLM 改，其余框架固定論文。這一步很關(guān)鍵，相當于給進化定義“基因范圍”。

接下來就進入真正的“進化環(huán)節(jié)”論文。

AlphaEvolve 把當前算法代碼當作“個體”，由 LLM 生成若干語義上有意義的改寫版本：不是隨便亂改，而是改具體邏輯、控制流或更新規(guī)則論文。

每一個改寫后的版本，都會被自動編譯、運行，然后丟進一組博弈環(huán)境里真實對戰(zhàn)，用 exploitability 這樣的指標打分論文。表現(xiàn)更好的版本被保留下來，作為下一輪搜索的基礎(chǔ)；表現(xiàn)差的直接淘汰。

整個過程是閉環(huán)的：生成 → 運行 → 評估 → 篩選 → 再生成，循環(huán)推進論文。人類不參與中間調(diào)參，也不手動篩選，只負責設(shè)定規(guī)則和評價標準。

圖注：這張示意圖也是 AI 做的

結(jié)果，AI 進化出了兩個全新算法論文。

先看 CFR 這一派論文。AlphaEvolve 進化出了 VAD-CFR。

AI 沒有去調(diào)那點小參數(shù)，而是直接改了“后悔值怎么累計、怎么打折、什么時候開始平均策略”這些核心邏輯論文。

比如引入了 volatility-sensitive discounting（根據(jù)波動動態(tài)折扣）、hard warm-start schedule（前期蓄力、后期發(fā)力）這樣的機制論文。

聽起來挺抽象的，但效果明顯：在多個博弈里，它超過了目前人類手工打磨出來的最強版本論文。

這張圖很直觀，展示了多種 CFR 變體在不同博弈環(huán)境中的收斂表現(xiàn)論文。上半部分是用于搜索階段的訓練游戲，下半部分是規(guī)模更大、更復雜的測試游戲。

橫軸是迭代次數(shù)（最多 1000 次），縱軸是 exploitability（越低越接近均衡）論文。曲線降得越快、越低，說明算法越強。

灰色那條線就是 VAD-CFR論文?？梢钥吹?，在多數(shù)游戲里，它下滑得更快、落得更低，明顯壓過 CFR+、DCFR、PCFR+ 這些人類優(yōu)化過多輪的版本。

在一些游戲中，大約 500 次迭代之后，曲線像突然“踩了油門”，下降速度明顯加快——這正是它預熱階段結(jié)束、正式發(fā)力的時刻論文。

前半段像是在默默蓄力，后半段才真正沖刺論文。

更關(guān)鍵的是，在規(guī)模更大、難度更高的測試游戲中，VAD-CFR 依然比傳統(tǒng)的 CFR、CFR+、DCFR 等人工設(shè)計的算法收斂更快、結(jié)果更優(yōu)，沒有出現(xiàn)“只會做模擬題”的情況論文。

這說明，它不是針對訓練游戲做了小技巧，而是在算法結(jié)構(gòu)層面找到了一種更高效的更新方式論文。

再看 PSRO這一派：AI 進化出了 SHOR-PSRO算法論文。

它做的事情很簡單也很大膽：重新設(shè)計“元求解器”論文。

傳統(tǒng)方法要么偏探索，要么偏逼近均衡，權(quán)衡是固定的論文。而 SHOR 直接把多種更新機制混合在一起，設(shè)計了一種混合型 meta-solver，而且隨著訓練進程動態(tài)調(diào)整，讓訓練過程自動從“多樣性探索”過渡到“逼近均衡”。

這張圖，展示的就是它和 Uniform、Nash、AlphaRank、PRD、RM 等經(jīng)典方法的對比論文。

圖中不同顏色代表不同元求解器：Uniform、Nash、AlphaRank、PRD、Regret Matching（RM），以及進化得到的 SHOR（棕色線）論文。

整張圖分為上下兩部分論文。上半部分是訓練游戲，下半部分是規(guī)模更大、更復雜的測試游戲，用來檢驗算法是否具有泛化能力。

橫軸是 PSRO 迭代次數(shù)（最多 100 輪），縱軸是 exploitability（可被利用度，對數(shù)坐標）；數(shù)值越低，說明算法越接近博弈均衡、表現(xiàn)越好論文。

可以看到，在多數(shù)游戲中，SHOR 曲線下降更快，而且在第 100 次迭代時的 exploitability 更低，說明它在同樣迭代次數(shù)下更有效地逼近均衡論文。

尤其是在更復雜的測試游戲中（如 4-player Kuhn、6-sided Liar’s Dice），SHOR 依然保持優(yōu)勢，沒有明顯退化論文。

簡單說，SHOR-PSRO 在“什么時候多探索、什么時候?qū)Ｗ⒈平狻边@件事上，比傳統(tǒng)方法更靈活、更聰明論文。

它不是靠調(diào)參數(shù)贏的，而是把調(diào)度邏輯本身改了論文。

論文地址論文：

參考鏈接論文：

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網(wǎng)友：這可能就是“王牌”

海之嵐財稅公司

熱門標簽

相關(guān)詞匯

分站導航

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網(wǎng)友：這可能就是“王牌”

海之嵐財稅公司

熱門標簽

相關(guān)詞匯

分站導航

DeepMind新論文炸鍋：AI全自動進化算法，寫出專家都想不到的解，網(wǎng)友：這可能就是“王牌”