當前,各大科技公司的大模型競爭進入白熱化階段,OpenAI的GPT、Anthropic的Claude、谷歌的Gemini以及中國的DeepSeek等模型不斷推陳出新。然而,隨著AI模型排行榜頻繁出現(xiàn)刷分作弊現(xiàn)象,如何客觀評估大模型性能成為業(yè)界關注的焦點。在此背景下,一個名為LMArena的線上評測平臺應運而生,通過實時對戰(zhàn)和用戶投票的方式,為大模型性能評估提供了新的思路。
在LMArena平臺上,文字、視覺、搜索、文生圖、文生視頻等多個細分領域的AI大模型每天進行上千場實時對戰(zhàn)。普通用戶通過匿名投票的方式,選出自己認為表現(xiàn)更好的模型。這種評測方式得到了許多AI研究者的認可,他們認為大模型競賽的下半場需要重新思考模型評估標準。當技術創(chuàng)新趨于飽和時,準確衡量和理解模型的智能邊界將成為拉開差距的關鍵。
傳統(tǒng)的大模型評估主要依賴固定的題庫,如MMLU、BIG-Bench、HellaSwag等。這些題庫涵蓋學科、語言、常識推理等多個維度,通過比較模型的答對率或得分來評估性能。然而,隨著模型能力的增強和訓練數(shù)據(jù)的擴大,傳統(tǒng)Benchmark的局限性逐漸顯現(xiàn)。題庫泄露導致模型可能只是“記住”答案而非真正理解問題,且靜態(tài)Benchmark無法反映模型在真實交互中的表現(xiàn)。
LMArena的競技場模式被視為應對傳統(tǒng)Benchmark失靈的新方案。其核心機制源于伯克利實驗室的研究,2023年5月由全球頂尖學府組成的非營利性開放研究組織LMSYS推出了Chatbot Arena(LMArena的前身)。當時,LMSYS團隊為了比較自己發(fā)布的開源模型Vicuna和斯坦福大學推出的Alpaca的性能,嘗試了多種評測方法,最終發(fā)現(xiàn)人類比較(Pairwise Comparison)的方式更為可靠。
在Chatbot Arena上,用戶輸入問題后,系統(tǒng)會隨機分配兩個模型生成回答,用戶通過投票選擇更好的回答。投票結束后,系統(tǒng)基于Bradley–Terry模型實現(xiàn)Elo式評分機制,形成動態(tài)排行榜。這種機制讓評測成為一場“真實世界的動態(tài)實驗”,而非一次性的閉卷考試。平臺通過“人機協(xié)同評估框架”確保評測的開放性和可控性,所有數(shù)據(jù)和算法均開源,任何人都可以復現(xiàn)或分析結果。
2024年底,LMArena的功能和評測任務擴展至代碼生成、搜索評估、多模態(tài)圖像理解等細分領域,并更名為LMArena。谷歌最新文生圖模型Nano Banana最早通過LMArena以神秘代號引發(fā)關注,Gemini 3.0也被發(fā)現(xiàn)在該平臺上進行測試。如今,幾乎所有頭部模型都在LMArena上“打擂臺”,將其作為測試普通用戶反饋的“常規(guī)賽場”。
然而,隨著LMArena的火爆,其公平性也受到質疑。用戶的語言背景、文化偏好和使用習慣可能影響投票結果,導致模型因“討人喜歡”而非真正智能而獲勝。研究發(fā)現(xiàn),LMArena的結果與傳統(tǒng)Benchmark分數(shù)之間并非強相關,存在“話題偏差”與“地區(qū)偏差”。一些公司為“上榜”優(yōu)化模型回答風格,甚至提供“專供版”模型,導致評測公正性受到爭議。
2025年5月,LMArena背后的團隊注冊公司“Arena Intelligence Inc.”,并完成1億美元種子輪融資。公司化后,平臺可能探索數(shù)據(jù)分析、定制化評測和企業(yè)級報告等商業(yè)服務。這引發(fā)了業(yè)界對其中立性的擔憂,當資本介入后,LMArena是否還能保持“開放”與“中立”成為焦點問題。
盡管LMArena暴露出新矛盾,但傳統(tǒng)Benchmark仍在持續(xù)演化。近年來,研究者推出了難度更高的版本,如MMLU Pro、BIG-Bench-Hard,以及聚焦細分領域的Benchmark,如AIME 2025、SWE-Bench、AgentBench等。這些新Benchmark模擬模型在真實世界中的工作方式,從單一考試題集演化為多層次體系。
與此同時,評測進一步走向“真實世界”。例如,Alpha Arena平臺讓六大模型在加密貨幣交易市場中進行對戰(zhàn),以實際收益和策略穩(wěn)定性作為評測依據(jù)。雖然這種“實戰(zhàn)式評測”更多是“噱頭”,但為大模型在動態(tài)、對抗環(huán)境中的檢驗提供了新思路。
未來的模型評估可能是一種融合式框架,靜態(tài)Benchmark提供可復現(xiàn)、可量化的標準,Arena提供動態(tài)、開放、面向真實交互的驗證。隨著大模型能力提升,原有測試集“太簡單”的問題愈發(fā)突出,Arena的自動難度過濾提出了階段性解決方案,但真正的方向是由人類專家與強化學習環(huán)境共同推動的高難度數(shù)據(jù)建設。
朱邦華認為,大模型評估的未來是螺旋式共演。模型的突破迫使評測體系升級,新的評測又反過來定義模型的能力邊界。高質量的數(shù)據(jù)成為連接兩者的中軸,研究者需要篩選、組合與聚合成百上千個數(shù)據(jù)集,建立兼顧統(tǒng)計有效性與人類偏好的聚合框架。這將是一場持續(xù)進行的實驗,最終構建一個動態(tài)、開放、可信的智能測量體系。











