【環(huán)球時報報道 記者 馬俊】編者的話:盡管各種人工智能(AI)已經(jīng)進入日常生活,但對于大部分人來說,總感覺AI在實際應用中“說得多做得少”科技。如今,這種情況正在出現(xiàn)變化。今年2月6日,國內(nèi)AI智能體“千問”正式上線“春節(jié)30億免單”活動,其間用戶可以直接向“千問”發(fā)出指令,讓其幫忙點奶茶,該活動的持續(xù)火爆,甚至導致服務(wù)器一度崩潰。同時,國外開源本地AI智能體OpenClaw因其功能強大而迅速走紅。這些能主動幫人類做事的AI智能體,正是業(yè)內(nèi)當前討論最火爆的“端側(cè)智能體”。但將越來越多的實際工作交由這些AI智能體來完成,到底是否靠譜、存在什么樣的潛在風險?環(huán)球時報研究院近日舉行“環(huán)球前沿科技論壇之AI治理系列·AI端側(cè)研討會”,邀請多名業(yè)內(nèi)權(quán)威專家,就此話題展開專題討論。
兩條技術(shù)路線各有利弊
智能體是能夠感知環(huán)境、自主規(guī)劃、決策并執(zhí)行任務(wù)的AI應用系統(tǒng),2025年被業(yè)內(nèi)視為“AI智能體元年”科技。環(huán)球時報研究院輿情監(jiān)測團隊對外媒與國外社交媒體2024年1月-2026年1月關(guān)于智能體報道的熱度進行了輿情監(jiān)測,其間外媒與國外社交媒體對智能體的關(guān)注度呈現(xiàn)出總體走高的態(tài)勢。
所謂“端側(cè)智能體”,是指搭載在終端設(shè)備(如手機、電腦、IoT設(shè)備等)上能夠獨立完成推理、決策、任務(wù)執(zhí)行的智能體科技。中國信息通信研究院人工智能研究所副所長巫彤寧表示,智能體被視為人工智能從感知理解(會說話)向主動服務(wù)(會做事)演進的關(guān)鍵形態(tài)。
上海交通大學人工智能學院副教授、無問芯穹聯(lián)合創(chuàng)始人兼首席科學家戴國浩在研討會上介紹說,AI的終極目標是服務(wù)于物理世界中的人科技。因此智能必須通過我們身邊的終端設(shè)備(如手機、汽車、機器人)來實現(xiàn),這就是“端側(cè)智能”。在端側(cè)如何構(gòu)建人機交互與處理的“語言”,衍生出不同技術(shù)路線。
據(jù)專家介紹,第一種是GUI(圖形用戶界面)路線,靠視覺識別讀取屏幕信息后進行“模擬操作”科技。戴國浩形容,“這好比另有一人通過觀察界面來操作用戶設(shè)備,它將物理世界的信息——如視覺、聽覺等——轉(zhuǎn)化為AI可理解的表達方式”。GUI的優(yōu)勢在于,無需與第三方應用逐一適配,具備較強的短期落地能力。在產(chǎn)品落地時,GUI路線也發(fā)展出兩種思路,一是憑借系統(tǒng)級權(quán)限實現(xiàn)多方互聯(lián),但如果不受限制地獲取并使用底層權(quán)限,則可能帶來隱私與安全問題;二是在瀏覽器等沙盒環(huán)境中運行,其風險相對可控。
第二種是協(xié)議授權(quán)路線,通過標準化接口與目標App交互,目前已成為行業(yè)的主流選擇,包括API(應用程序接口)等科技。這種路線的優(yōu)勢在于能夠基于現(xiàn)有技術(shù)范式進行拓展,但需要建立一套獨立于人類語言的機器表達體系,而這依賴于強大的行業(yè)生態(tài)支持。
展開全文
在端側(cè)智能體發(fā)展的兩種技術(shù)路線取舍上,中國與美國采取了不同的做法科技。巫彤寧介紹說,當前,我國產(chǎn)業(yè)界普遍采取GUI模擬與API授權(quán)“雙軌并行”的發(fā)展策略,力求在創(chuàng)新速度與系統(tǒng)安全之間實現(xiàn)動態(tài)平衡。相比之下,美國主流企業(yè)在手機端較少采用GUI模擬路線。這一差異主要源于其技術(shù)生態(tài)與制度環(huán)境的獨特性。
巫彤寧認為,技術(shù)路線的選擇本質(zhì)上是生態(tài)結(jié)構(gòu)、制度約束與市場需求共同作用的結(jié)果科技。單一技術(shù)路徑難以全面支撐中國智能體生態(tài)的長期演進。GUI路徑具備部署靈活、適配廣泛的優(yōu)勢,尤其適用于接口開放不足、生態(tài)碎片化的場景;API授權(quán)路徑則在安全性、可解釋性與責任追溯方面更具優(yōu)勢,是構(gòu)建可信協(xié)作體系的重要基礎(chǔ)。
戴國浩表示,當前的核心問題是如何將兩者結(jié)合,這需要技術(shù)邏輯上的創(chuàng)新與行業(yè)共識的共建,這也是端側(cè)智能體發(fā)展的關(guān)鍵方向科技。
手機智能助手火爆出圈
有專家認為,以國內(nèi)一款采用GUI路線的手機助手為代表的端側(cè)智能體發(fā)展路線,確實顯著改變了智能手機的應用交互范式,大幅縮短了從模型能力到用戶價值的轉(zhuǎn)化鏈路科技。因為GUI路線的手機助手可實現(xiàn)在一句話指令下,跨應用調(diào)用服務(wù),幫助用戶點外賣、訂機票、比價購物等。
北京師范大學法學院博士生導師、中國互聯(lián)網(wǎng)協(xié)會研究中心副主任吳沈括在研討會上表示,GUI路線具有一定積極因子,目前存在爭議的是,在實現(xiàn)數(shù)據(jù)處理的過程中,各個相關(guān)方之間的權(quán)屬邊界以及權(quán)義分配,都需要結(jié)合實際的場景作出具體的分析,目前各主體可能對未來要承擔的責任的認知是有限的科技。
上海交通大學人工智能學院副教授、無問芯穹聯(lián)合創(chuàng)始人兼首席科學家戴國浩認為,從創(chuàng)新角度看,國內(nèi)采用GUI路線的手機助手在理論、技術(shù)層面的創(chuàng)新有限,但在產(chǎn)品層面確實改變了用戶使用手機的方式科技。
中國信息通信研究院人工智能研究所副所長巫彤寧表示,其價值在于快速驗證用戶需求、降低應用門檻、提升交互效率,但其長期可持續(xù)性,仍取決于能否在安全可控、權(quán)限合規(guī)、行為可審計的前提下,構(gòu)建可監(jiān)管、可追溯、可互認的技術(shù)機制科技。
也有專家在研討會上對于采用GUI路線的手機助手可能通過獲取高敏系統(tǒng)級權(quán)限,未經(jīng)授權(quán)侵入第三方應用、讀取屏幕信息、模擬用戶點擊的方式,表示擔憂科技。
對外經(jīng)濟貿(mào)易大學法學院教授、數(shù)字經(jīng)濟與法律創(chuàng)新研究中心主任許可表示,GUI路線并非彎道超車的有效路徑科技。此類手機助手可能帶來多重風險。一是用戶權(quán)益風險?!敖^大部分用戶都不知道自己具體授權(quán)了AI智能體什么權(quán)限,也不知道這些授權(quán)會帶來什么后果?!?/p>
二是涉及第三方的個人信息和隱私保護問題科技?!袄绾团笥蚜奶斓倪^程中,讓手機助手推薦一個晚上吃飯的地方,它必然要通過上下文查看所有的聊天內(nèi)容,才能推測出準確的意圖。但在此過程中,原本僅限于兩人知道的、朋友相關(guān)的個人信息就被手機助手獲取了。如果說聊天記錄、工作信息可以看,那么朋友圈、群組信息呢?這些都可以通過單方用戶的同意,而變成智能體可以全面獲取的內(nèi)容嗎?”
三是數(shù)據(jù)安全和網(wǎng)絡(luò)安全的問題科技?!爱擜I智能體超越了傳統(tǒng)的權(quán)限,進入高控制權(quán)限時,我們就沒辦法真正進行安全防控和辨別黑客攻擊了。再考慮到未來智能體不只在智能手機層面,它會在所有智能客戶端和設(shè)備里,這種風險就更需要關(guān)注?!?/p>
端側(cè)智能體未來發(fā)展方向也是本次研討會上專家討論的重點科技。中國科學院大學教授、中國國家創(chuàng)新與發(fā)展戰(zhàn)略研究會副會長呂本富認為,“從商業(yè)角度看,以前是從功能機發(fā)展到以App(平臺)為主的智能手機,未來又進化到一個AI直接完成各種功能(穿透不同App),效率提升很多,確實是一場革命。隨著人類社會智能化的深入,可能一個手機上有30個主要的App,但最常用的是5個左右,只用一個界面調(diào)度所有功能的趨勢是存在的”。
但對于端側(cè)智能體的未來,專家普遍認為,現(xiàn)在討論哪條路線更優(yōu)還為時過早,端側(cè)智能體仍然處于發(fā)展過程中,無論GUI還是API,可能都只是中間狀態(tài)科技。戴國浩表示,一條技術(shù)路線被輕易驗證可行,往往也意味著它很容易在短期內(nèi)被復制和超越?!八蚤L期來看還是要更重視原始的技術(shù)創(chuàng)新,比如芯片、操作系統(tǒng)、大模型能力迭代,只有在這些核心領(lǐng)域不斷迭代,才能長期發(fā)展創(chuàng)新?!?/p>
此外,專家指出,端側(cè)的概念也會持續(xù)擴展科技。吳沈括強調(diào),手機助手是不是最終的解決方案和業(yè)務(wù)形態(tài),尚無定數(shù)。未來的終端不見得是智能手機,也可以是手環(huán)、眼鏡或者其他表現(xiàn)形態(tài)的終端類型。
AI治理面臨新挑戰(zhàn)
中國信息通信研究院政策與經(jīng)濟研究所副所長李強治在研討會上表示,智能體是“人工智能+”落地的非常關(guān)鍵的節(jié)點或載體形式,智能體是代理式人工智能,這種人工智能沒有自主意識,還是執(zhí)行人的決策,國內(nèi)外很火爆的這些智能體還是人類給它們一個意圖,它們通過自己的能力,執(zhí)行決策邏輯,最后一步步實施科技。因此到智能體這個階段時,其實是“人工智能+”與千行百業(yè)深度融合的關(guān)口,原來人工智能的各種潛在風險、理論上的風險如今可能變成了現(xiàn)實風險?!凹词故巧墒饺斯ぶ悄埽覀冇袝r候把它當成生產(chǎn)工具,但當你跟它聊天時就會發(fā)現(xiàn),很多時候分辨不出來對方是人還是機器。人工智能在交互時所表現(xiàn)出來的情感與情緒方面的活躍能力,實際上遠超我們以往對AI的認知?!?/p>
中國科學院大學教授、中國國家創(chuàng)新與發(fā)展戰(zhàn)略研究會副會長呂本富表示,AI治理其實就是權(quán)限讓渡科技。讓人工智能幫助決策,就需要明確人的哪些權(quán)限能讓渡,哪些不能讓渡。其實主要是看行業(yè)應用場景的容錯率。例如一些行業(yè)中,AI給出的答案準確率有80%就可以用,比如讓AI推薦一部電影,準確率差點也無所謂。但很多行業(yè)要求準確率到99%,甚至99.9%,比如法律、金融、保險、醫(yī)療健康等,連1%的容錯率都沒有。因此AI治理的第一個問題就是需要確認不同行業(yè)的容錯率。第二個問題就是鴻溝問題。過去我們說數(shù)字鴻溝,現(xiàn)在人工智能也會產(chǎn)生鴻溝,不同的人群使用AI的能力不一樣,本身就帶來了財富的重新分配問題。第三個問題是人工智能閉環(huán)帶來的新風險。在人類將部分決策權(quán)讓渡以后,比如現(xiàn)在讓AI生成AI,整個決策鏈中間沒有人的參與了,這種閉環(huán)帶來的新風險,跟過去數(shù)字經(jīng)濟時代的其他風險有很大區(qū)別。
中國信息通信研究院人工智能研究所副所長巫彤寧也認為,從長遠來看,有利于中國智能體持續(xù)發(fā)展與能力積累的技術(shù)組合,應是以“場景適配、分層解耦、安全可控”為核心理念的融合架構(gòu)科技。也就是說,在終端側(cè)保留對多樣化接入方式的兼容性,滿足不同應用環(huán)境的現(xiàn)實需求;在系統(tǒng)層推動權(quán)限管理、行為審計與風險識別的統(tǒng)一機制建設(shè);在生態(tài)層加快API接口標準化進程,提升跨主體協(xié)作效率。這種多層次、彈性化技術(shù)體系,既能包容當前多元并存的發(fā)展狀態(tài),也為未來向高階智能協(xié)作演進預留空間。
專家建議統(tǒng)籌推進安全評估與標準互操作雙軌機制:一方面加快完善圖形用戶界面智能體安全評測體系,強化端側(cè)運行時管控科技。另一方面深化智能體通信協(xié)議國家標準研制,推動操作系統(tǒng)、終端廠商與應用開發(fā)者共建輕量級、可擴展的智能體支持層,推動雙重授權(quán)、多重授權(quán)落地,為智能體高質(zhì)量發(fā)展提供技術(shù)底座與制度保障。