千問發(fā)布法律大模型評測基準(zhǔn)PLaw Bench

AIPress.com.cn報(bào)道

2月6日,千問Qwen團(tuán)隊(duì)聯(lián)合阿里巴巴AIData團(tuán)隊(duì)、曉天衡宇評測社區(qū)正式發(fā)布PLaw Bench,這是一個專門針對法律實(shí)務(wù)場景設(shè)計(jì)的大模型評測基準(zhǔn)法律。與市面上常見的法律知識問答測試不同,PLaw Bench的核心目標(biāo)是檢驗(yàn)大模型在真實(shí)法律工作場景中的表現(xiàn)。

千問發(fā)布法律大模型評測基準(zhǔn)PLaw Bench

目前市面上的法律評測集存在兩個普遍問題法律。一是默認(rèn)案情完整、問題清晰,但真實(shí)的法律咨詢往往以幾句模糊的話開頭,當(dāng)事人可能情緒激動、表述零碎、關(guān)鍵細(xì)節(jié)缺失,甚至夾雜著對法律的錯誤理解。二是題目大多來源于司法考試或法學(xué)院期末試題,雖然容易獲取,但畢竟不是真實(shí)案例,很難反映現(xiàn)實(shí)中的復(fù)雜情況。

PLaw Bench的做法是全流程還原法律工作場景法律。研究團(tuán)隊(duì)收集了用戶咨詢記錄、律所實(shí)務(wù)案例和法院公開裁判文書,經(jīng)過脫敏和改編處理后,設(shè)計(jì)了13類場景、850道題目和12500條評分細(xì)則。

評測分為三大任務(wù)模塊法律

第一個是用戶理解法律。研究團(tuán)隊(duì)設(shè)計(jì)了大量經(jīng)過改編的當(dāng)事人陳述,其中充滿情緒化表達(dá)、事實(shí)誤導(dǎo)和關(guān)鍵信息缺失。測試要求模型從這些混亂的陳述中識別關(guān)鍵問題,并通過提問來澄清事實(shí)。從結(jié)果來看,頂尖模型得分接近80分,能有效過濾情感干擾,但也有部分模型出現(xiàn)關(guān)鍵細(xì)節(jié)遺漏和核心問題誤判的情況。

千問發(fā)布法律大模型評測基準(zhǔn)PLaw Bench

展開全文

第二個是案例分析法律。這個模塊涵蓋個人生活糾紛、公司治理、法律與科技、跨國法律實(shí)務(wù)等11個類別。研究團(tuán)隊(duì)不僅關(guān)注模型判斷的對錯,更聚焦其推理路徑是否正確。結(jié)果顯示各主流大模型得分趨于接近,但最高分未突破70分,表明當(dāng)前模型在推理嚴(yán)謹(jǐn)性和邏輯閉環(huán)性上與專業(yè)法律從業(yè)者仍有差距。

千問發(fā)布法律大模型評測基準(zhǔn)PLaw Bench

第三個是文書生成法律。與用戶理解類似,題目以當(dāng)事人陳述形式展開,其中植入了不合理訴求、錯誤法律用語和模糊表述。模型需要站在律師視角,從混亂陳述中歸納核心事實(shí),制定訴訟策略,最終生成起訴狀或答辯狀等文書。最高得分剛過70分,部分模型雖然格式規(guī)范,但存在核心事實(shí)遺漏和法律關(guān)系誤判問題。

千問發(fā)布法律大模型評測基準(zhǔn)PLaw Bench

在總排名中,GPT-5系列表現(xiàn)強(qiáng)勢,Gemini 3.0和Claude-sonnet-4-5緊隨其后,千問Qwen3-max位居第五法律。但整體來看,參與測試的模型得分都在60%左右,并未出現(xiàn)具有碾壓優(yōu)勢的選手。

千問發(fā)布法律大模型評測基準(zhǔn)PLaw Bench

研究團(tuán)隊(duì)還發(fā)現(xiàn)了幾個有意思的現(xiàn)象法律。同一公司訓(xùn)練的模型往往具備相似的特長,比如Gemini系列擅長需要嚴(yán)謹(jǐn)推理的案例分析,GPT系列更擅長總結(jié)歸納但在查找法條上存在短板。在涉及中國法律咨詢和文書實(shí)務(wù)時(shí),以Qwen3-Max和DeepSeek-V3.2為代表的國產(chǎn)模型表現(xiàn)更優(yōu),對本土法律術(shù)語和咨詢場景有更精準(zhǔn)的語境感知能力。

研究團(tuán)隊(duì)表示,PLaw Bench的價(jià)值不僅在于提供模型排名,更希望回答一個現(xiàn)實(shí)問題:當(dāng)把真實(shí)法律糾紛交給AI處理時(shí),它能有效發(fā)揮作用的邊界在哪里,哪些環(huán)節(jié)仍需專業(yè)法律從業(yè)者介入法律。

目前相關(guān)論文和項(xiàng)目已在arXiv和GitHub公開法律

本站內(nèi)容來自用戶投稿,如果侵犯了您的權(quán)利,請與我們聯(lián)系刪除。聯(lián)系郵箱:[email protected]

本文鏈接://m.cqlhyz.com/tags-%E9%8D%8B%E7%88%90%E5%B7%A5.html

?? /
欧美亚洲日韩国产综合每日更新,国产美女一级A作爱在线观看,亚洲欧洲国产1区二区,国产高清无码精油按摩