滾動資訊

當前位置：首頁 > 資訊 > 信息流 > 正文內(nèi)容

三星自研TRUEBench上線，以真實場景實踐助力AI性能評估新標準

時間：2025-09-25 19:21:40 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

三星近日宣布推出自主研發(fā)的AI性能基準測試工具“可信真實場景使用評估基準”（Trustworthy Real-world Usage evaluation Benchmark，簡稱TRUEBench），旨在填補現(xiàn)有測試工具在多語言支持和復(fù)雜任務(wù)評估方面的空白。該工具由三星研究院開發(fā)，針對當前主流AI基準測試過于依賴英語和單輪問答結(jié)構(gòu)的局限性進行優(yōu)化。

測試集設(shè)計方面，TRUEBench突破了傳統(tǒng)基準測試的單一模式。其測試樣本長度從8個字符的短任務(wù)到超過20000字符的長文檔處理不等，涵蓋從基礎(chǔ)指令執(zhí)行到復(fù)雜邏輯推理的完整能力譜系。這種設(shè)計使評估結(jié)果更貼近真實業(yè)務(wù)場景中的AI應(yīng)用表現(xiàn)。

在評估機制上，TRUEBench采用AI與人工協(xié)同優(yōu)化的評分系統(tǒng)。通過機器學習模型與專業(yè)評估人員的交互校準，工具建立了包含多維度指標的量化評估框架。目前，該工具的測試數(shù)據(jù)集和實時排行榜已在開源社區(qū)Hugging Face上線，用戶可同時對比最多5個AI模型的性能表現(xiàn)。

三星電子DX部門首席技術(shù)官Paul (Kyungwhoon) Cheun強調(diào)，TRUEBench的開發(fā)基于三星在智能設(shè)備領(lǐng)域的深厚技術(shù)積累。他表示：“通過將真實場景中的AI應(yīng)用經(jīng)驗轉(zhuǎn)化為標準化評估體系，我們希望為行業(yè)提供更具參考價值的性能指標，同時鞏固三星在AI技術(shù)創(chuàng)新領(lǐng)域的領(lǐng)先地位。”

該工具的推出標志著三星在AI基礎(chǔ)設(shè)施領(lǐng)域的戰(zhàn)略升級。與現(xiàn)有測試工具相比，TRUEBench的多語言支持體系涵蓋主流語種及部分小語種，其任務(wù)分類系統(tǒng)則精確對應(yīng)企業(yè)數(shù)字化轉(zhuǎn)型中的典型工作場景。這種差異化設(shè)計使其在商業(yè)應(yīng)用評估方面具有顯著優(yōu)勢。

更多>同類資訊

Meta發(fā)布代碼世界模型CWM：引入世界模型，或開啟編程模型新路徑

09-25

郎酒發(fā)力兼香賽道：龍馬郎卡位核心價格帶，加速全國化布局

09-25

中產(chǎn)熱衷“散裝奢侈品”：消費新趨勢下奢侈品市場何去何從？

09-25

廣州握手網(wǎng)絡(luò)：技術(shù)賦能商業(yè)，引領(lǐng)互聯(lián)網(wǎng)銷售與轉(zhuǎn)型新潮流

09-25

比比贊：以敏捷研發(fā)筑基，借全渠道布局，在零食紅海闖出系統(tǒng)化增長路

09-25

?抖音直播重拳整治錄播掛機亂象：超45萬直播間受罰，3.3萬黑產(chǎn)賬號被無限期封禁?

09-25

市場監(jiān)管總局推進充電寶召回工作保障用戶權(quán)益并強化市場監(jiān)管

09-25

京東工業(yè)IPO備案通過：年營收達204億，劉強東旗下上市版圖再擴容

09-25

短劇新篇：霸總“活感”重塑，細膩表達開啟短劇新賽道

09-25

營收凈利雙滑坡，“奶粉一哥”飛鶴陷困局，“第一”寶座岌岌可危

09-25

2025上半年VR市場遇冷降溫，AR智能眼鏡市場火熱增長態(tài)勢明顯

按細分市場來看，基于 Birdbath 方案、以視頻為中心的 AR 智能眼鏡仍然占據(jù)主導(dǎo)地位，占出貨量的78%，其次是基于光波導(dǎo)（waveguide）、以信息顯示為主的 AR 智能眼鏡，占比約 17%。 …

09-25

西湖大學趙世鈺團隊破局：多旋翼無人機“疊飛”協(xié)同作業(yè)首登Nature

看視頻1，F(xiàn)lyingToolbox能夠成功實現(xiàn)不少于20次的連續(xù)對接，且20次對接實驗的平均誤差為0.80厘米（標準差0.33厘米），這一亞厘米級的精度相較于先前的無機械臂補償?shù)膶酉到y(tǒng)（精度6-8厘米）…

09-25

新疆科研團隊11年攻堅 “保鮮術(shù)”助力天山果品跨越山海留鮮甜

中新網(wǎng)新疆新聞9月24日電（王小軍）9月24日，新疆維吾爾自治區(qū)農(nóng)業(yè)科學院與阿克蘇鮮豐水果有限公司在烏魯木齊簽約，未來五年將聯(lián)手攻關(guān)，以這項技術(shù)為核心，為新疆特色干鮮果品打造全鏈條保鮮加工方案，讓戈壁珍饈跨越…

09-25

世界最大規(guī)模！6100個中性原子量子比特陣列問世，精度質(zhì)量雙突破

研究人員下一步旨在實現(xiàn)原子糾纏，這是解鎖全規(guī)模量子計算的關(guān)鍵步驟。 "這是中性原子量子計算的激動時刻，"項目首席研究員曼努埃爾·恩德雷斯教授表示，"我們現(xiàn)在看到了通往大型容錯量子計算機的清晰路徑，基礎(chǔ)構(gòu)建模塊…

09-25

廣西科研團隊發(fā)現(xiàn)興安野橘：自帶耐黃龍病基因，助柑橘產(chǎn)業(yè)高質(zhì)量發(fā)展

近期，廣西特色作物研究院柑橘種質(zhì)創(chuàng)新與利用團隊在《Scientific Data》期刊上發(fā)表一篇研究論文，論文提及了對原始柑橘類型——興安野橘的染色體基因組測序組裝成果，研究人員發(fā)現(xiàn)興安野橘對柑橘黃龍病比較耐…

09-25

點擊查看更多 +

全站最新

奇瑞汽車商業(yè)版圖盤點

地平線機器人等入股聯(lián)創(chuàng)汽車電子

宏勝集團多枚娃小宗商標通過初審

四川省自然資源建設(shè)公司登記成立注冊資本6億

伯特利等在浙江成立傳動科技公司注冊資本1億

小米景明在南昌成立科技公司

熱門內(nèi)容

本欄最新

雷軍第99次健身打卡收官在即，年度演講與小米17系列發(fā)布同日將啟

天回航天“巧龍一號”發(fā)動機完成超低工況熱試車，展現(xiàn)深度推力調(diào)節(jié)潛力

2025秋季搜狐視頻播主大會三亞啟幕，多元互動共探關(guān)注流社交新生態(tài)

NVIDIA50億美元投資Intel，臺積電風險可控，先進制程優(yōu)勢或延續(xù)至2030年

復(fù)旦團隊繪制代謝組圖譜：解鎖疾病早期預(yù)警密碼，助力精準醫(yī)療

國慶中秋假期將至，租臺無人機記錄美好旅程成熱門新選擇

本網(wǎng)站LOGO小熊標志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

三星自研TRUEBench上線，以真實場景實踐助力AI性能評估新標準