滾動(dòng)資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

Salesforce革新AI訓(xùn)練：Webscale-RL破解數(shù)據(jù)困局，效率躍升百倍

時(shí)間：2025-11-15 01:31:31 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評(píng)論無障礙通道

人工智能領(lǐng)域迎來重要突破，Salesforce AI研究院的研究團(tuán)隊(duì)提出了一種名為Webscale-RL的創(chuàng)新數(shù)據(jù)處理框架，為解決AI訓(xùn)練中的核心難題提供了全新解決方案。這項(xiàng)研究通過系統(tǒng)性轉(zhuǎn)換海量網(wǎng)絡(luò)文本，成功構(gòu)建出適合強(qiáng)化學(xué)習(xí)的大規(guī)模高質(zhì)量數(shù)據(jù)集，顯著提升了AI模型的訓(xùn)練效率和綜合性能。

傳統(tǒng)語言模型訓(xùn)練主要依賴模仿學(xué)習(xí)機(jī)制，這種模式如同學(xué)生機(jī)械抄寫課文，雖能掌握語言形式卻難以應(yīng)對(duì)實(shí)際問題。研究表明，此類模型在面對(duì)訓(xùn)練數(shù)據(jù)未覆蓋的場(chǎng)景時(shí)，往往表現(xiàn)出明顯的局限性。相比之下，強(qiáng)化學(xué)習(xí)通過模擬人類認(rèn)知過程，讓模型在互動(dòng)反饋中持續(xù)優(yōu)化策略，展現(xiàn)出更強(qiáng)的泛化能力，但受制于訓(xùn)練數(shù)據(jù)的稀缺性，其發(fā)展?jié)摿﹂L期受限。>針對(duì)這一矛盾，研究團(tuán)隊(duì)開發(fā)的Webscale-RL系統(tǒng)構(gòu)建了完整的自動(dòng)化處理流水線。該系統(tǒng)首先對(duì)原始網(wǎng)絡(luò)文檔進(jìn)行質(zhì)量篩選，剔除低價(jià)值內(nèi)容后，通過多維度分類系統(tǒng)識(shí)別文檔領(lǐng)域?qū)傩裕槊科臋n分配金融分析師、普通消費(fèi)者等不同角色視角。在核心的問答生成環(huán)節(jié)，系統(tǒng)基于角色特征和領(lǐng)域知識(shí)，從示例庫中匹配參考樣本，指導(dǎo)AI生成多樣化的問答對(duì)，最終通過嚴(yán)格的質(zhì)量驗(yàn)證確保數(shù)據(jù)可靠性。

實(shí)驗(yàn)設(shè)計(jì)采用科學(xué)嚴(yán)謹(jǐn)?shù)膶?duì)比方法，以30億參數(shù)的Qwen2.5-3B模型為基準(zhǔn)，與繼續(xù)預(yù)訓(xùn)練、數(shù)據(jù)清洗等傳統(tǒng)方法展開公平競(jìng)爭。研究團(tuán)隊(duì)特別構(gòu)建了包含1萬個(gè)樣本的監(jiān)督微調(diào)集，確保所有基線模型在指令遵循能力上處于同一水平。強(qiáng)化學(xué)習(xí)階段采用的GRPO算法，通過答案匹配度提供反饋信號(hào)，形成閉環(huán)優(yōu)化機(jī)制。

測(cè)試結(jié)果顯示，Webscale-RL訓(xùn)練的模型在MMLU-pro通用知識(shí)測(cè)試中得分提升5.9分，Big-Bench推理測(cè)試提高7.1分，數(shù)學(xué)推理能力更是實(shí)現(xiàn)10.4分的顯著突破。特別值得注意的是，該模型僅用傳統(tǒng)方法1/100的訓(xùn)練數(shù)據(jù)量，就達(dá)到了相近的性能水平，這種效率提升為資源受限場(chǎng)景下的AI開發(fā)開辟了新路徑。

技術(shù)架構(gòu)層面，該系統(tǒng)的創(chuàng)新體現(xiàn)在三個(gè)關(guān)鍵維度：多角色視角設(shè)計(jì)突破了單一數(shù)據(jù)源的局限性，質(zhì)量控制機(jī)制確保了數(shù)據(jù)準(zhǔn)確性，模塊化架構(gòu)支持任意規(guī)模的數(shù)據(jù)處理。這些特性共同構(gòu)成了從"規(guī)模擴(kuò)張"到"效率優(yōu)化"的訓(xùn)練范式轉(zhuǎn)變，為構(gòu)建可持續(xù)的AI生態(tài)系統(tǒng)提供了技術(shù)支撐。

在實(shí)際應(yīng)用場(chǎng)景中，這種方法展現(xiàn)出廣泛適用性。教育領(lǐng)域可開發(fā)跨學(xué)科教學(xué)助手，內(nèi)容創(chuàng)作行業(yè)能獲得更智能的寫作支持，企業(yè)服務(wù)市場(chǎng)則可部署更高效的智能客服系統(tǒng)。研究團(tuán)隊(duì)已將完整技術(shù)方案開源，包含數(shù)據(jù)處理流水線和訓(xùn)練數(shù)據(jù)集，為產(chǎn)業(yè)界提供了可直接復(fù)用的解決方案。

當(dāng)前研究仍存在改進(jìn)空間，數(shù)據(jù)分布平衡性和獎(jiǎng)勵(lì)機(jī)制效率是主要優(yōu)化方向。研究團(tuán)隊(duì)建議通過調(diào)整原始數(shù)據(jù)配比解決領(lǐng)域偏差問題，同時(shí)探索基于特征匹配的輕量化評(píng)估方法。這些改進(jìn)方向?yàn)楹罄m(xù)研究指明了技術(shù)演進(jìn)路徑，預(yù)示著AI訓(xùn)練方法將進(jìn)入更高效的發(fā)展階段。

這項(xiàng)突破不僅體現(xiàn)在性能指標(biāo)的提升，更重要的是為AI發(fā)展提供了新的方法論。通過優(yōu)化訓(xùn)練策略而非單純擴(kuò)大模型規(guī)模，研究團(tuán)隊(duì)證明了智能提升與資源消耗之間存在更優(yōu)解。隨著開源社區(qū)的持續(xù)完善，該方法有望在更多領(lǐng)域驗(yàn)證其普適性，推動(dòng)AI技術(shù)向更智能、更高效的方向演進(jìn)。完整技術(shù)細(xì)節(jié)可通過論文編號(hào)arXiv:2510.06499v1查閱。

更多>同類資訊

OpenAI新突破：訓(xùn)練稀疏模型，為破解大模型“黑箱”指明新方向

11-15

上海財(cái)大團(tuán)隊(duì)打造AI統(tǒng)計(jì)推理評(píng)測(cè)體系填補(bǔ)智能評(píng)估關(guān)鍵空白

11-15

港大團(tuán)隊(duì)新研究：AI變身“研究偵探”，評(píng)估框架解鎖智能助手新能力

11-15

港理工團(tuán)隊(duì)新突破：AI無需額外訓(xùn)練，推理能力隨計(jì)算投入顯著提升

11-15

港科大新基準(zhǔn)PhysToolBench：AI工具理解短板與突破之路

11-15

2025中國新媒體大會(huì)啟幕智媒引擎驅(qū)動(dòng)傳媒系統(tǒng)性變革新征程

11-15

清華大學(xué)團(tuán)隊(duì)提出EAGLET框架，讓AI智能體學(xué)會(huì)“深謀遠(yuǎn)慮”規(guī)劃任務(wù)

11-15

全棧AI賦能：阿里云如何以技術(shù)革新重塑2025年雙十一新體驗(yàn)

11-15

中美AI分岔路：中國AI務(wù)實(shí)突圍，誰能率先打破OpenAI“神話”？

11-15

安謀科技發(fā)布“周易”X3 NPU IP，AIGC大模型能力躍升開啟端側(cè)AI新篇

智東西11月14日消息，昨日，安謀科技正式發(fā)布了專為端側(cè)大模型而生的最新一代NPUIP——“周易”X3，其能夠與Arm架構(gòu)CPU、GPU協(xié)同，組成基于Arm生態(tài)的異構(gòu)算力解決方案。新的“周易”X3 NP…

11-15

阿里通義App煥新升級(jí)更名千問 5.0.0版本攜三大核心能力強(qiáng)勢(shì)登場(chǎng)

今日，阿里旗下通義App今日發(fā)布更新，名稱正式變更為千問App，版本號(hào)為5.0.0。在版本 5.0.0中，千問強(qiáng)調(diào)其核心能力包括：“對(duì)話問答”“智能寫作”“全能相機(jī)”三大模塊。據(jù)知情人士透露，阿里巴巴計(jì)…

11-15

谷歌前工程師再創(chuàng)業(yè)！AI數(shù)據(jù)分析新銳WisdomAI獲英偉達(dá)等3.55億融資

WisdomAI面向企業(yè)客戶推出了AI驅(qū)動(dòng)的對(duì)話式商業(yè)智能（BI）平臺(tái)，提供AI數(shù)據(jù)分析業(yè)務(wù)，用戶只需用自然語言提問便可獲取分析后的答案。 WisdomAI稱：“過去的BI只提供被動(dòng)的、靜態(tài)的儀表板，而Ag…

11-15

電力設(shè)備邂逅互聯(lián)網(wǎng)：開啟智能高效綠色能源新征程

互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展，如同一股強(qiáng)大的催化劑，為電力設(shè)備行業(yè)注入了新的活力與機(jī)遇。一、智能化升級(jí)：傳統(tǒng)設(shè)備的數(shù)字化轉(zhuǎn)型過去，電力設(shè)備的操作往往依賴人工經(jīng)驗(yàn)和定期維護(hù)，存在效率低下、故障響應(yīng)慢等問題。當(dāng)電力設(shè)備…

11-14

前小米技術(shù)大咖崔寶秋轉(zhuǎn)戰(zhàn)家庭服務(wù)機(jī)器人，獲頂級(jí)VC青睞布局新賽道

11-14

抖音雙十一反詐在行動(dòng)：余承東、董宇輝等助力，多方共筑安全消費(fèi)防線

11-14

點(diǎn)擊查看更多 +

全站最新

廣汽華為攜手發(fā)力高端新能源啟境汽車11月20日即將驚艷登場(chǎng)

2025百度世界大會(huì)：AI從“智能涌現(xiàn)”邁向“效果涌現(xiàn)”，李彥宏揭秘前沿成果

13.99萬起享百萬級(jí)體驗(yàn)！東風(fēng)奕派eπ007+上市，性能智能顏值全拉滿

2025百度世界大會(huì)：搜索大革新多數(shù)結(jié)果AI生成生態(tài)合作共探新可能

百度文庫網(wǎng)盤GenFlow3.0升級(jí)亮相，海外拓展成果顯著開啟新征程

嵐圖泰山11月18日上市！配國產(chǎn)三腔空懸攜華為科技劍指豪華SUV市場(chǎng)

熱門內(nèi)容

本欄最新

東風(fēng)奕派eπ007+深圳煥新登場(chǎng)：14萬級(jí)激光雷達(dá)加持，四驅(qū)轎跑新選擇

24.9萬起售！全新奔馳純電CLA攜四大突破，重塑豪華純電新標(biāo)桿

東風(fēng)奕派兩周年獻(xiàn)禮，eπ007+攜四大優(yōu)勢(shì)登場(chǎng)，助力新能源賽道加速跑

東風(fēng)奕派兩周年獻(xiàn)禮：eπ007+攜四大優(yōu)勢(shì)登場(chǎng)，為年輕人出行注入新動(dòng)力

東風(fēng)奕派eπ007+高能登場(chǎng)，以“奕派速度”為年輕人解鎖百萬級(jí)出行新體驗(yàn)

嵐圖泰山來襲：外觀大氣內(nèi)飾豪華能否在高端SUV市場(chǎng)分一杯羹？

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護(hù)，版權(quán)登記號(hào)：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請(qǐng)通知我們及時(shí)刪除。
中國（山東）自由貿(mào)易試驗(yàn)區(qū) 魯ICP備11015305號(hào)-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

Salesforce革新AI訓(xùn)練：Webscale-RL破解數(shù)據(jù)困局，效率躍升百倍