梁文峰發(fā)新論文,“基模四杰”聊下一代模型范式今年會(huì)否出現(xiàn)

繼去年底發(fā)布新論文之后,1月12日晚,DeepSeek又上新一篇署名梁文峰的論文論文。這篇論文聚焦大模型的條件記憶模塊, DeepSeek在結(jié)論中認(rèn)為這將成為下一代稀疏大模型不可或缺的核心建模原語(yǔ)。此前有爆料稱(chēng),DeepSeek下一代大模型將在春節(jié)前后發(fā)布,業(yè)內(nèi)猜測(cè)這或是下一代模型DeepSeek V4的研究路線(xiàn)圖。

近期在中關(guān)村國(guó)際創(chuàng)新中心的AGI-Next前沿峰會(huì)上,被稱(chēng)為“基模四杰”的月之暗面創(chuàng)始人兼CEO楊植麟、阿里巴巴Qwen技術(shù)負(fù)責(zé)人林俊旸、騰訊首席AI科學(xué)家姚順雨和清華大學(xué)教授、智譜創(chuàng)始人兼首席科學(xué)家唐杰也對(duì)下一代模型的范式和重點(diǎn)進(jìn)行了探討論文。AI行業(yè)先鋒密集發(fā)聲,或能窺見(jiàn)2026年中國(guó)大模型發(fā)展的方向和趨勢(shì)。

大模型發(fā)展將如何分化論文

進(jìn)入2026年,已有兩家大模型企業(yè)完成上市,與此同時(shí),各家都在押注不同的領(lǐng)域論文。接下來(lái)中國(guó)的模型會(huì)分化成哪些方向?

姚順雨此前為OpenAI著名研究者,專(zhuān)注于將大型語(yǔ)言模型從理論研究推向?qū)嶋H應(yīng)用,特別是AI Agent的開(kāi)發(fā)論文。2025年底,騰訊升級(jí)大模型研發(fā)架構(gòu),新成立AI Infra部、AI Data部、數(shù)據(jù)計(jì)算平臺(tái)部,全面強(qiáng)化其大模型的研發(fā)體系與核心能力。姚順雨出任“CEO/總裁辦公室”首席AI科學(xué)家,向騰訊總裁劉熾平匯報(bào);他同時(shí)兼任AI Infra部、大語(yǔ)言模型部負(fù)責(zé)人,向技術(shù)工程事業(yè)群總裁盧山匯報(bào)。

姚順雨認(rèn)為,To C和To B明顯發(fā)生了分化論文。首先在To C端,大部分人多數(shù)時(shí)候其實(shí)不需要用到這么強(qiáng)的智能。“可能今天用ChatGPT和去年相比,寫(xiě)抽象代數(shù)或者去解伽羅瓦理論的能力變強(qiáng)了,但是大部分人感受不到。大部分人尤其在中國(guó),更多像在用搜索引擎的加強(qiáng)版?!?/p>

但在To B端,智能越高很多時(shí)候就代表生產(chǎn)力越高、可以賺的錢(qián)越多論文。所以To B大部分時(shí)候很多人愿意用最強(qiáng)的模型?!捌鸫a美國(guó)人會(huì)愿意花溢價(jià)去用最好的模型。因?yàn)榭赡芩哪晷绞?0萬(wàn)美元,他每天要做10個(gè)任務(wù),那一個(gè)像Opus 4.5這樣非常強(qiáng)的模型,它可能10個(gè)任務(wù)里做對(duì)八九個(gè),差的模型可能做對(duì)五六個(gè)。問(wèn)題是你不知道這五六個(gè)是哪五六個(gè),就要花很多額外精力去監(jiān)控。所以在To B這個(gè)市場(chǎng)上,強(qiáng)的模型和稍微差點(diǎn)的模型,分化會(huì)變得越來(lái)越明顯?!?/p>

另外,姚順雨認(rèn)為,以往的發(fā)展趨勢(shì)“垂直整合”以及“模型和應(yīng)用分層”也開(kāi)始出現(xiàn)分化論文?!斑^(guò)去大家會(huì)認(rèn)為當(dāng)企業(yè)有垂直整合的能力,就肯定會(huì)做得更好,但今天來(lái)看不一定。首先,模型層和應(yīng)用層需要的能力不一樣,尤其是對(duì)于To B或者說(shuō)生產(chǎn)力場(chǎng)景,更大的預(yù)訓(xùn)練(Pre-training)還是一個(gè)非常關(guān)鍵的事情,但這個(gè)事情對(duì)于產(chǎn)品公司確實(shí)很難做。但想要把一個(gè)特別好的模型用好,或者說(shuō)讓模型有溢出能力,也需要在應(yīng)用側(cè)或者說(shuō)在環(huán)境側(cè)做很多相應(yīng)的事情?!?/p>

展開(kāi)全文

他總結(jié)稱(chēng),在To C應(yīng)用垂直整合還是成立的,無(wú)論是ChatGPT還是豆包,模型和產(chǎn)品是非常強(qiáng)耦合去緊密迭代論文。但對(duì)于To B來(lái)說(shuō)趨勢(shì)似乎是相反的。模型變得越來(lái)越強(qiáng),但也同樣會(huì)有更多應(yīng)用層的東西想要去利用這樣的好模型,在不同的生產(chǎn)力環(huán)節(jié)發(fā)揮作用。

姚順雨還談到自己在騰訊做哪些事情論文。他表示,騰訊還是一個(gè)To C基因更強(qiáng)的公司。所以會(huì)思考如何讓今天的大模型或者說(shuō)AI的發(fā)展能夠給用戶(hù)提供更多價(jià)值。但同時(shí)我們也不斷發(fā)現(xiàn),很多瓶頸可能在To C端不是缺更大的模型、更強(qiáng)的強(qiáng)化學(xué)習(xí)或更強(qiáng)的獎(jiǎng)勵(lì)模型,很多時(shí)候需要的可能是額外的上下文和環(huán)境。

“比如說(shuō)我想問(wèn)‘我今天該去吃什么’論文。其實(shí)你今天問(wèn)ChatGPT 和你去年問(wèn)、或者明天問(wèn),這個(gè)事情可能體驗(yàn)都會(huì)很差。因?yàn)橄胍兒?,不是說(shuō)你需要更大的模型、更強(qiáng)的預(yù)訓(xùn)練,這個(gè)問(wèn)題的瓶頸可能是你需要更多額外的輸入,或者說(shuō)上下文。比如說(shuō)如果它知道‘啊今天我其實(shí)特別冷,我需要吃點(diǎn)暖和的’,反而會(huì)給用戶(hù)帶來(lái)很多額外的價(jià)值?!币樣昱e了這樣一個(gè)例子。

To B方面,姚順雨說(shuō)騰訊目前會(huì)思考先服務(wù)好自己論文?!皠?chuàng)業(yè)公司做Coding和大公司做Coding(編程)的一個(gè)區(qū)別是,大公司本身已經(jīng)有很多應(yīng)用場(chǎng)景、各種各樣需要生產(chǎn)力變得更好的地方。如果我們模型能夠在這些地方做得更好,不僅模型會(huì)有自己獨(dú)特的優(yōu)勢(shì),更關(guān)鍵一點(diǎn)是,對(duì)于真實(shí)世界的更多樣化的場(chǎng)景數(shù)據(jù)的捕捉,會(huì)是一個(gè)很有意思的事情?!?/p>

唐杰則認(rèn)為,智譜是第一個(gè)做出來(lái)Chat產(chǎn)品的企業(yè),但這一仗從DeepSeek出來(lái)之后就結(jié)束了論文。在DeepSeek出來(lái)后,智譜押注的下一個(gè)方向是Coding。

誰(shuí)將成為下一代范式的推手論文

過(guò)去十年,OpenAI先后推動(dòng)了兩個(gè)重要范式:一是以預(yù)訓(xùn)練為核心的通用模型范式,二是以對(duì)齊、推理和強(qiáng)化學(xué)習(xí)為代表的能力增強(qiáng)范式論文。下一代范式會(huì)是什么?誰(shuí)將成為下一代范式的推手?

姚順雨認(rèn)為,新范式的瓶頸不是方法論,而是數(shù)據(jù)或者說(shuō)任務(wù)論文。但同時(shí)他認(rèn)為,自主學(xué)習(xí)是新范式的前提?!拔矣X(jué)得這個(gè)事情已經(jīng)在發(fā)生了,可能更像是一個(gè)漸變,而不像一個(gè)突變。比如現(xiàn)在ChatGPT利用用戶(hù)數(shù)據(jù)擬合聊天風(fēng)格,使它的感覺(jué)越來(lái)越好,今天Claude Code已經(jīng)寫(xiě)了95%的代碼,在幫它自己變得更好”。

姚順雨認(rèn)為,下一代范式最大的瓶頸可能是想象力論文。談到下一代范式創(chuàng)新將會(huì)由哪個(gè)公司引領(lǐng),姚順雨依然認(rèn)為是OpenAI的概率更大。

林俊旸也認(rèn)為,下一代范式可能會(huì)落到自主學(xué)習(xí)上論文。另外他還補(bǔ)充,AI更強(qiáng)的主動(dòng)性或許也是下一個(gè)范式?!斑@意味著,環(huán)境可能就是輸入信號(hào)。比如說(shuō)我現(xiàn)在這個(gè)AI,必須得有人類(lèi)去給它提示詞才能夠啟動(dòng)它。那有沒(méi)有可能環(huán)境就能提示它?它自己能自主思考,去做一些事情。”但林俊旸也表達(dá)了自己對(duì)模型擁有更強(qiáng)主動(dòng)性的同時(shí)引發(fā)安全問(wèn)題的擔(dān)心。

如果自主學(xué)習(xí)真的會(huì)在2026年顯露出成為下一代范式的信號(hào),具體會(huì)在哪些任務(wù)上最先出現(xiàn)?林俊旸認(rèn)為,在理解用戶(hù)這件事情比如個(gè)性化上會(huì)更快出現(xiàn)論文。但問(wèn)題在于,在信息推薦時(shí)代,個(gè)性化做得越好用戶(hù)就會(huì)點(diǎn)擊得更多、買(mǎi)得也更多。在AI時(shí)代個(gè)性化的衡量指標(biāo)是什么?

唐杰認(rèn)為,Scaling這樣的規(guī)模定律仍然是有效的,只要繼續(xù)擴(kuò)大算力、數(shù)據(jù)與參數(shù)規(guī)模,模型能力依然會(huì)提升論文。但現(xiàn)在真正的瓶頸已經(jīng)不在于有沒(méi)有卡,而在于收益的效率是否值得?!耙环矫嫖覀冃枰猄caling Up,就像我剛才說(shuō)的‘反正最笨的辦法就是Scaling’,因?yàn)镾caling我們肯定有收益,這是一個(gè)工程做法。但我們也應(yīng)該定一個(gè)(標(biāo)準(zhǔn))叫‘智能的效率’,即用多少的投入能獲得智能的增量?!?/p>

楊植麟在演講階段也提到了Token效率問(wèn)題論文。他提到從2019年至今,大模型始終遵循同一條基本邏輯:即通過(guò)Scaling Law將更多算力、數(shù)據(jù)和參數(shù)轉(zhuǎn)化為更低的消耗、更高的智能水平。但這一邏輯的前提是Token可以被無(wú)限消耗。

但現(xiàn)實(shí)并非如此,當(dāng)預(yù)訓(xùn)練Token被吃完,模型能達(dá)到的智能上限也到了,這意味著,問(wèn)題不再只是“用多少Token”,而是每一個(gè)Token能換來(lái)多少有效智能論文。

正因如此,過(guò)去一年,月之暗面幾乎將所有核心工作都?jí)涸趖oken效率上,即用更少的Token,做到更低的消耗論文。在K2模型中,他們嘗試引入新的優(yōu)化器與架構(gòu)設(shè)計(jì),通過(guò)提升Token效率,使模型在“用一半數(shù)據(jù)達(dá)到相同效果”的意義上,獲得等價(jià)于一次Scaling的收益。

智能體2026年如何發(fā)展論文

拾象科技創(chuàng)始人李廣密觀察到,最近大家對(duì)于2026年還有一個(gè)很大的預(yù)期,即Agent現(xiàn)在可以在后臺(tái)比如推理3~5個(gè)小時(shí),做人類(lèi)1~2天的工作量,2026年是否有希望做人類(lèi)正常工作一周到兩周的工作量論文。如果一個(gè)Agent可以自動(dòng)化人一天或者一周的工作流,2026年真有可能是Agent“創(chuàng)造經(jīng)濟(jì)價(jià)值”的關(guān)鍵一年。

姚順雨認(rèn)為,生產(chǎn)力的Agent才剛剛開(kāi)始論文?,F(xiàn)在可能除了模型之外有兩個(gè)瓶頸,一是部署的問(wèn)題。他提到,即使今天模型不再變好、所有的模型訓(xùn)練全部停止,但如果把這些模型部署到世界上各種各樣的公司,它可能還是能帶來(lái)今天的10倍或者100倍的收益,或者說(shuō)可能對(duì)GDP產(chǎn)生5%~10%的影響。但今天,模型的影響還遠(yuǎn)遠(yuǎn)不到1%。

另外在環(huán)境上,姚順雨認(rèn)為人和人的差距在拉大,會(huì)使用AI工具的人在替代那些不會(huì)使用的人論文。他認(rèn)為現(xiàn)在中國(guó)能做的一個(gè)最有意義的事情是更好的教育,教大家怎么更好地去使用像Claude Code或者ChatGPT這樣的產(chǎn)品。

林俊旸認(rèn)為,接下來(lái)因?yàn)樽晕疫M(jìn)化和主動(dòng)學(xué)習(xí)Agent可以做到更厲害論文。“現(xiàn)在Agent其實(shí)已經(jīng)開(kāi)始越來(lái)越變得‘托管式”’,而不是說(shuō)我要不斷來(lái)來(lái)回回交互的形式。從這個(gè)角度上來(lái)說(shuō),它對(duì)模型的要求其實(shí)是很高的,模型就是Agent,Agent就是這個(gè)產(chǎn)品本身。如果它們都是一體化的話(huà),那么今天做基礎(chǔ)模型本身其實(shí)也就是在做這個(gè)產(chǎn)品。如果不斷提升模型能力的上限,包括Test-time Scaling能做上去的話(huà),確實(shí)能夠做到這個(gè)事情?!?/p>

另外林俊旸也提到,他認(rèn)為Agent與環(huán)境也強(qiáng)相關(guān)論文?!坝袥](méi)有可能我們未來(lái)AI 環(huán)境能復(fù)雜到可能是真實(shí)人類(lèi)世界的環(huán)境,指揮機(jī)器人去做實(shí)驗(yàn),去加快效率?如果能達(dá)到這一個(gè)點(diǎn),可能才是我想象當(dāng)中 Agent 能夠做人類(lèi)很長(zhǎng)時(shí)間的活,而不是說(shuō)僅僅是在電腦中寫(xiě)個(gè)文件。我覺(jué)得接下來(lái)三年到五年的時(shí)間,可能這個(gè)事情會(huì)更有意思。這個(gè)又要跟具身智能結(jié)合在一起?!?/p>

唐杰則認(rèn)為,未來(lái)有幾個(gè)因素會(huì)決定Agent走勢(shì)論文。一是Agent能解決的事情價(jià)值有多大,而是解決這件事情要花多少成本。三是做應(yīng)用的速度有多快?!叭绻阏f(shuō)我有個(gè)時(shí)間窗,我能夠拉開(kāi)半年的時(shí)間窗,迅速把應(yīng)用滿(mǎn)足了,半年以后,要么迭代,要么怎么著,反正能往前走。說(shuō)白了大模型時(shí)代到現(xiàn)在,更多的是在拼速度、拼時(shí)間?!?/p>

中美AI路徑差異

在唐杰、姚順雨、林俊旸等人的討論中論文,一個(gè)反復(fù)被討論的話(huà)題是:中美大模型之間的演進(jìn)路徑有何差異,這一差異的背后原因是什么?

姚順雨認(rèn)為,關(guān)鍵點(diǎn)其實(shí)在于中國(guó)的算力瓶頸能不能突破、包括光刻機(jī)和軟件生態(tài)等產(chǎn)能能不能突破論文。另外一個(gè)問(wèn)題是,除了To C能不能有更成熟或者更好的To B市場(chǎng),或者有沒(méi)有機(jī)會(huì)在國(guó)際的商業(yè)環(huán)境去競(jìng)爭(zhēng)?!敖裉煳覀兛吹胶芏嘧錾a(chǎn)力或者做To B的模型,還是會(huì)誕生在美國(guó),因?yàn)橹Ц兑庠父鼜?qiáng),To B的文化更好。中國(guó)國(guó)內(nèi)做這個(gè)事情很難,所以大家都會(huì)選擇出海或者做國(guó)際化。”

姚順雨說(shuō)自己觀察到,中美之間的差異在于,在中國(guó)大家還是更喜歡做確定性的事情,“比如今天預(yù)訓(xùn)練已經(jīng)被證明可以做出來(lái)了論文。這事情其實(shí)也非常難做,有很多技術(shù)問(wèn)題要解決。但是只要一旦被證明能做出來(lái),我們都很有信心幾個(gè)月或者一段時(shí)間內(nèi)就把這個(gè)東西搞清楚。但是如果今天要讓一個(gè)人去探索一個(gè)比如長(zhǎng)期記憶或者持續(xù)學(xué)習(xí),大家不知道怎么做,能不能做起來(lái)。那這個(gè)我覺(jué)得還是比較困難?!?/p>

另外他還觀察到,在中國(guó)大家對(duì)于刷榜或者數(shù)字會(huì)看得更重一些論文。但像海外Anthropic、國(guó)內(nèi)DeepSeek這樣的企業(yè),可能沒(méi)有那么關(guān)注榜單的數(shù)字,會(huì)更注重什么是正確的、體驗(yàn)感到底好不好。

林俊旸提到,目前美國(guó)的算力可能整體比中國(guó)大1~2個(gè)數(shù)量級(jí),但不管是OpenAI還是 Anthropic大量的算力其實(shí)都是投入到下一代的研究當(dāng)中去論文。但國(guó)內(nèi)今天相對(duì)來(lái)說(shuō)捉襟見(jiàn)肘,光交付可能就已經(jīng)占據(jù)了絕大部分的算力,這會(huì)是一個(gè)比較大的差異。

另外一個(gè)需要思考的點(diǎn)是,從軟硬結(jié)合的角度,是不是真的有可能端到端地做出來(lái)論文。“我特別記得在2021年的時(shí)候,當(dāng)時(shí)我們?cè)谧龃竽P?。阿里做了芯片,?lái)找我說(shuō):能不能預(yù)測(cè)一下三年之后這個(gè)模型是不是Transformer架構(gòu)?三年之后模型是不是多模態(tài)?為什么是三年呢?他說(shuō)我們需要三年的時(shí)間才能流片。我當(dāng)時(shí)回答是:三年之后,我在不在阿里巴巴,我都不知道。但最后我今天還在阿里巴巴,然后他果然還是Transformer,還是多模態(tài),我就非常懊悔為什么當(dāng)時(shí)沒(méi)有催他去做?!?/p>

另外,林俊旸也提到了冒險(xiǎn)精神論文。他表示,在冒險(xiǎn)精神上,中國(guó)可能還需要改變的是教育,現(xiàn)在團(tuán)隊(duì)里面有很多00后,大家的冒險(xiǎn)精神也是在增強(qiáng)的。

采寫(xiě)論文:南都N視頻記者 林文琪

本站內(nèi)容來(lái)自用戶(hù)投稿,如果侵犯了您的權(quán)利,請(qǐng)與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E6%A0%A1%E6%9C%8D.html

?? 簡(jiǎn) /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩