滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內容

AI評測新戰(zhàn)場：LMArena崛起，傳統(tǒng)與動態(tài)評測誰能定義智能邊界？

時間：2025-11-02 05:16:45 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

當前，各大科技公司的大模型競爭進入白熱化階段，OpenAI的GPT、Anthropic的Claude、谷歌的Gemini以及中國的DeepSeek等模型不斷推陳出新。然而，隨著AI模型排行榜頻繁出現(xiàn)刷分作弊現(xiàn)象，如何客觀評估大模型性能成為業(yè)界關注的焦點。在此背景下，一個名為LMArena的線上評測平臺應運而生，通過實時對戰(zhàn)和用戶投票的方式，為大模型性能評估提供了新的思路。

在LMArena平臺上，文字、視覺、搜索、文生圖、文生視頻等多個細分領域的AI大模型每天進行上千場實時對戰(zhàn)。普通用戶通過匿名投票的方式，選出自己認為表現(xiàn)更好的模型。這種評測方式得到了許多AI研究者的認可，他們認為大模型競賽的下半場需要重新思考模型評估標準。當技術創(chuàng)新趨于飽和時，準確衡量和理解模型的智能邊界將成為拉開差距的關鍵。

傳統(tǒng)的大模型評估主要依賴固定的題庫，如MMLU、BIG-Bench、HellaSwag等。這些題庫涵蓋學科、語言、常識推理等多個維度，通過比較模型的答對率或得分來評估性能。然而，隨著模型能力的增強和訓練數(shù)據(jù)的擴大，傳統(tǒng)Benchmark的局限性逐漸顯現(xiàn)。題庫泄露導致模型可能只是“記住”答案而非真正理解問題，且靜態(tài)Benchmark無法反映模型在真實交互中的表現(xiàn)。

LMArena的競技場模式被視為應對傳統(tǒng)Benchmark失靈的新方案。其核心機制源于伯克利實驗室的研究，2023年5月由全球頂尖學府組成的非營利性開放研究組織LMSYS推出了Chatbot Arena（LMArena的前身）。當時，LMSYS團隊為了比較自己發(fā)布的開源模型Vicuna和斯坦福大學推出的Alpaca的性能，嘗試了多種評測方法，最終發(fā)現(xiàn)人類比較（Pairwise Comparison）的方式更為可靠。

在Chatbot Arena上，用戶輸入問題后，系統(tǒng)會隨機分配兩個模型生成回答，用戶通過投票選擇更好的回答。投票結束后，系統(tǒng)基于Bradley–Terry模型實現(xiàn)Elo式評分機制，形成動態(tài)排行榜。這種機制讓評測成為一場“真實世界的動態(tài)實驗”，而非一次性的閉卷考試。平臺通過“人機協(xié)同評估框架”確保評測的開放性和可控性，所有數(shù)據(jù)和算法均開源，任何人都可以復現(xiàn)或分析結果。

2024年底，LMArena的功能和評測任務擴展至代碼生成、搜索評估、多模態(tài)圖像理解等細分領域，并更名為LMArena。谷歌最新文生圖模型Nano Banana最早通過LMArena以神秘代號引發(fā)關注，Gemini 3.0也被發(fā)現(xiàn)在該平臺上進行測試。如今，幾乎所有頭部模型都在LMArena上“打擂臺”，將其作為測試普通用戶反饋的“常規(guī)賽場”。

然而，隨著LMArena的火爆，其公平性也受到質疑。用戶的語言背景、文化偏好和使用習慣可能影響投票結果，導致模型因“討人喜歡”而非真正智能而獲勝。研究發(fā)現(xiàn)，LMArena的結果與傳統(tǒng)Benchmark分數(shù)之間并非強相關，存在“話題偏差”與“地區(qū)偏差”。一些公司為“上榜”優(yōu)化模型回答風格，甚至提供“專供版”模型，導致評測公正性受到爭議。

2025年5月，LMArena背后的團隊注冊公司“Arena Intelligence Inc.”，并完成1億美元種子輪融資。公司化后，平臺可能探索數(shù)據(jù)分析、定制化評測和企業(yè)級報告等商業(yè)服務。這引發(fā)了業(yè)界對其中立性的擔憂，當資本介入后，LMArena是否還能保持“開放”與“中立”成為焦點問題。

盡管LMArena暴露出新矛盾，但傳統(tǒng)Benchmark仍在持續(xù)演化。近年來，研究者推出了難度更高的版本，如MMLU Pro、BIG-Bench-Hard，以及聚焦細分領域的Benchmark，如AIME 2025、SWE-Bench、AgentBench等。這些新Benchmark模擬模型在真實世界中的工作方式，從單一考試題集演化為多層次體系。

與此同時，評測進一步走向“真實世界”。例如，Alpha Arena平臺讓六大模型在加密貨幣交易市場中進行對戰(zhàn)，以實際收益和策略穩(wěn)定性作為評測依據(jù)。雖然這種“實戰(zhàn)式評測”更多是“噱頭”，但為大模型在動態(tài)、對抗環(huán)境中的檢驗提供了新思路。

未來的模型評估可能是一種融合式框架，靜態(tài)Benchmark提供可復現(xiàn)、可量化的標準，Arena提供動態(tài)、開放、面向真實交互的驗證。隨著大模型能力提升，原有測試集“太簡單”的問題愈發(fā)突出，Arena的自動難度過濾提出了階段性解決方案，但真正的方向是由人類專家與強化學習環(huán)境共同推動的高難度數(shù)據(jù)建設。

朱邦華認為，大模型評估的未來是螺旋式共演。模型的突破迫使評測體系升級，新的評測又反過來定義模型的能力邊界。高質量的數(shù)據(jù)成為連接兩者的中軸，研究者需要篩選、組合與聚合成百上千個數(shù)據(jù)集，建立兼顧統(tǒng)計有效性與人類偏好的聚合框架。這將是一場持續(xù)進行的實驗，最終構建一個動態(tài)、開放、可信的智能測量體系。

更多>同類資訊

蘋果前COO杰夫?威廉姆斯退休，庫克盛贊其為蘋果發(fā)展立下汗馬功勞

11-15

中國通號自主研發(fā)系統(tǒng)助力青藏鐵路構建無人機立體防護網(wǎng)

11-15

十二載輪回落幕，生肖酒新篇開啟：文化與市場博弈下的新征程

11-15

嵐圖泰山18日上市，45萬起售，大六座SUV市場或迎新格局

11-15

存儲芯片價格瘋漲，手機廠商采購暫緩，中高端機型或迎漲價潮

11-15

阿里通義App煥新升級更名為千問 5.0.0攜三大核心能力對標ChatGPT

11-15

中國AI務實突圍：從DeepSeek到MiniMax，誰將打破OpenAI神話？

而在此前提下，再疊加算力可控和訓練成本低等優(yōu)勢，以MiniMax為代表的中國AI模型便正好踩中了一個非常罕見的時間窗口——在OpenAI忙著追逐AGI和構建未來超級系統(tǒng)的時間縫隙中，國內AI正好可以在短期的…

11-15

“天衍-287”超導量子計算機問世，處理特定問題速度遠超超級計算機

11月14日，中國電信量子研究院發(fā)布消息，搭載“祖沖之三號”同款芯片的超導量子計算機“天衍-287”完成搭建。據(jù)介紹，其擁有105個數(shù)據(jù)比特和182個耦合比特，由中電信量子集團與科大國盾量子技術股份有限公司聯(lián)…

11-15

AI浪潮涌動烏鎮(zhèn)！相芯科技攜全鏈條數(shù)字人成果亮相世界互聯(lián)網(wǎng)大會

11-15

阿里巴巴“通義”升級更名“千問”，消費級AI戰(zhàn)場再添強勁競爭者

根據(jù)官方消息，“千問”定位為阿里旗下最重要的大模型應用入口，其核心能力基于阿里自研的大模型體系Qwen（千問）。分析人士指出，阿里此前在To B市場和模型研發(fā)側擁有技術基礎，但在消費端應用分發(fā)層面還未形成…

11-15

阿里巴巴“通義”App升級更名“千問”，AI戰(zhàn)略轉向消費級市場新布局

根據(jù)官方消息，“千問”定位為阿里旗下最重要的大模型應用入口，其核心能力基于阿里自研的大模型體系Qwen（千問）。分析人士指出，阿里此前在To B市場和模型研發(fā)側擁有技術基礎，但在消費端應用分發(fā)層面還未形成…

11-15

圖靈測試已落伍？奧特曼攜手量子計算之父提出新標準衡量AI智能

【新智元導讀】隨著現(xiàn)在的主流大模型都能輕松通過圖靈測試，這個持續(xù)了數(shù)十年的標準開始逐漸過時。奧特曼和量子計算之父David Deutsch討論得出了一個新的圖靈測試2.0標準，可以更好地衡量究竟怎樣AI才…

11-15

AI賦能時代：普通人如何借力AI工具，實現(xiàn)個人能力的躍遷與進化？

11-15

UCLA等團隊研發(fā)ARES框架：讓AI學會“量體裁衣”式智能推理

11-15

Salesforce革新AI訓練：Webscale-RL破解數(shù)據(jù)困局，效率躍升百倍

11-15

點擊查看更多 +

全站最新

科大訊飛AI學習機S30深度評測：個性化學習護眼雙保障，助力孩子高效成長

鼎美匯成長之路：競爭爭議相伴，堅守初心方能鑄就品牌傳奇

堅守長期主義！哈弗大狗憑卓越耐蝕性能成經(jīng)濟型車組別唯一獲獎車型

比亞迪高端化新突破！騰勢N8L憑實力“破圈”，營銷助力熱度持續(xù)

新能源車零百加速或設限？別急，默認5秒外仍可手動切換高性能

雷軍再談小米汽車安全理念：以扎實用料與高效吸能筑牢行車安全防線

熱門內容

本欄最新

東風奕派eπ007+深圳煥新登場：14萬級激光雷達加持，四驅轎跑新選擇

24.9萬起售！全新奔馳純電CLA攜四大突破，重塑豪華純電新標桿

東風奕派兩周年獻禮，eπ007+攜四大優(yōu)勢登場，助力新能源賽道加速跑

東風奕派兩周年獻禮：eπ007+攜四大優(yōu)勢登場，為年輕人出行注入新動力

東風奕派eπ007+高能登場，以“奕派速度”為年輕人解鎖百萬級出行新體驗

嵐圖泰山來襲：外觀大氣內飾豪華能否在高端SUV市場分一杯羹？

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內容聽讀服務。如本站內容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

AI評測新戰(zhàn)場：LMArena崛起，傳統(tǒng)與動態(tài)評測誰能定義智能邊界？