滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

摩爾線程URPO框架入選AAAI 2026，為大模型訓練提供全新技術路徑

時間：2025-11-14 00:54:33 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

人工智能領域迎來重要技術突破，摩爾線程提出的URPO統(tǒng)一獎勵與策略優(yōu)化框架引發(fā)行業(yè)關注。這項創(chuàng)新成果被國際頂級學術會議AAAI 2026收錄，為簡化大語言模型訓練流程提供了全新解決方案。研究團隊通過將指令遵循與獎勵評判兩大核心功能整合到單一模型中，實現(xiàn)了訓練效率與模型性能的雙重提升。

該框架在《URPO:A Unified Reward & Policy Optimization framework for Large Language Models》論文中詳細闡述了技術實現(xiàn)路徑。研究團隊突破傳統(tǒng)訓練范式，創(chuàng)造性地構建了三大技術模塊：首先通過數(shù)據(jù)格式統(tǒng)一技術，將偏好數(shù)據(jù)、推理數(shù)據(jù)和指令數(shù)據(jù)轉化為標準化訓練信號；其次開發(fā)自我獎勵循環(huán)機制，使模型能夠自主評估生成內(nèi)容并形成改進閉環(huán)；最后建立協(xié)同進化體系，讓生成能力與評判能力在混合數(shù)據(jù)訓練中相互促進。

實驗數(shù)據(jù)充分驗證了技術有效性。基于Qwen2.5-7B模型的測試顯示，采用URPO框架后，模型在Alpacaeval指令跟隨榜單的得分從42.24提升至44.84，綜合推理能力平均分增長3分。更值得關注的是，模型內(nèi)生的評判能力在RewardBench評測中取得85.15分，超越專用獎勵模型的83.55分，展現(xiàn)出強大的泛化能力。這種訓練副產(chǎn)品直接轉化為實用功能的技術路徑，為模型開發(fā)提供了新思路。

技術落地方面已取得實質(zhì)性進展。摩爾線程宣布該框架已在其自研計算卡上實現(xiàn)穩(wěn)定運行，并完成與VERL等主流強化學習框架的深度適配。這種軟硬協(xié)同的優(yōu)化策略，不僅提升了訓練效率，更為后續(xù)大規(guī)模模型開發(fā)奠定了基礎。研究團隊透露，相關技術正在向多模態(tài)領域延伸，有望在更復雜的AI應用場景中發(fā)揮作用。

行業(yè)專家指出，URPO框架的創(chuàng)新性在于打破了傳統(tǒng)訓練中生成與評判分離的架構限制。通過將裁判功能內(nèi)化于模型自身，既減少了訓練環(huán)節(jié)的復雜度，又提升了獎勵信號的精準度。這種技術路徑特別適用于需要快速迭代的開發(fā)場景，可能引發(fā)大模型訓練范式的變革。隨著技術文檔的公開，預計將有更多研究機構和企業(yè)開展相關實驗驗證。

更多>同類資訊

宜賓：從動力電池“領跑者”到新型儲能“新勢力”的跨越之路

11-13

豆包P圖免費走紅，美圖秀秀付費模式能否守住修圖江湖？

11-13

阿里巴巴擬重塑移動AI應用“通義”并更名“千問” 對標ChatGPT股價上揚超3%

11-13

螞蟻集團攜手浙江大學，聚焦“AI for Data”共建大數(shù)據(jù)認知計算研究中心

11-13

烏鎮(zhèn)峰會：前沿科技碰撞，共繪網(wǎng)絡空間命運共同體數(shù)智新藍圖

“非洲互聯(lián)網(wǎng)之父”、加納科網(wǎng)董事長尼·奎諾表示，像烏鎮(zhèn)峰會這樣的平臺為發(fā)展中國家提供了寶貴的發(fā)聲機會和參與空間；世界知識產(chǎn)權組織總干事鄧鴻森表示，烏鎮(zhèn)峰會為我們提供全球?qū)υ捙c合作的契機，這種對話與合作不僅是…

11-13

OpenAI推出GPT-5.1：自適應推理加持，八種風格可選，打造長期陪伴數(shù)字人格

11-13

AI新突破！李飛飛團隊發(fā)布Marble，開啟生成式世界模型新篇章

11-13

宇樹科技發(fā)布G1-D輪式人形機器人，數(shù)采訓練全棧方案同步上線

11-13

阿里秘密布局「千問」APP，基于Qwen模型角逐全球AI應用賽場

11-13

光伏逆變器健康診斷新突破：數(shù)據(jù)集構建助力智能運維與產(chǎn)業(yè)升級

本項目構建了一套覆蓋全面、質(zhì)量可靠、具有高度代表性的光伏逆變器健康診斷數(shù)據(jù)集，通過大數(shù)據(jù)分析和人工智能技術實現(xiàn)對逆變器故障的精準診斷和預測性維護，有效提升了光伏電站的運維效率與發(fā)電穩(wěn)定性。一是構建了一個全面…

11-13

2026人工智能投資新動向：算力端與芯片廠機遇及行業(yè)賦能前景

【11月12日中信建投發(fā)布人工智能2026年投資策略展望】算力端投資機會可圍繞龍頭確定性、新技術升級方向、本土化產(chǎn)業(yè)集群加速及訂單外溢來尋找，重點關注散熱、PCB、電源及供電方向。從中期維度看，訂單向國產(chǎn)芯片…

11-13

相芯科技攜AI數(shù)字人成果亮相烏鎮(zhèn)峰會，展浙江創(chuàng)新實力與產(chǎn)業(yè)動能

該平臺深度融合人工智能與建模、驅(qū)動、交互等核心技術，實現(xiàn)了數(shù)字人從生產(chǎn)到應用的全流程效率革新。作為浙江人工智能產(chǎn)業(yè)發(fā)展的先行力量，相芯科技未來將繼續(xù)深化AI與數(shù)字人的融合創(chuàng)新，推動更高效、智能的數(shù)字人應用場景…

11-13

OpenAI推GPT-5.1：智商情商雙提升個性交互與安全評估再升級

用戶還可在設置中精準微調(diào)AI特征，包括回答的簡潔度、熱情度、易讀性及表情符號使用頻率。針對AI擬人化可能帶來的風險，GPT-5.1在安全評估中首次納入“心理健康”與“情感依賴”兩大維度，重點評估對用戶孤立…

11-13

“十四五”期間我國工業(yè)機器人產(chǎn)業(yè)：技術躍進銷量攀升應用拓展

央視網(wǎng)消息：記者從工業(yè)和信息化部獲悉，“十四五”時期，我國工業(yè)機器人產(chǎn)品產(chǎn)量及國產(chǎn)化率不斷突破，產(chǎn)業(yè)發(fā)展取得顯著成效。 “十四五”時期，我國工業(yè)機器人產(chǎn)品技術加速創(chuàng)新迭代，顯示器、伺服系統(tǒng)、控制器等關鍵零部件…

11-13

上海助力外企大模型發(fā)展特斯拉、沃爾沃兩款產(chǎn)品成全國首批獲批上線者

11-13

點擊查看更多 +

全站最新

揭秘九陽股份與九陽豆業(yè)商業(yè)關聯(lián)

特斯拉上海超級工廠再創(chuàng)新績第500萬個電池包下線彰顯強勁實力

百度文庫海外上線「Oreate」平臺，百萬用戶青睞，多模態(tài)創(chuàng)作功能全方位覆蓋需求

9月全球新能源汽車銷量榜：特斯拉兩車領跑，比亞迪6款、吉利1款入圍前十

小度發(fā)布超能小度，多款新品亮相，開啟智能硬件新體驗篇章

小米YU7 20合1壓鑄鋁三角梁獲國際最佳結構獎，引領汽車安全輕量化新方向

熱門內(nèi)容

本欄最新

東風奕派eπ007+深圳煥新登場：14萬級激光雷達加持，四驅(qū)轎跑新選擇

24.9萬起售！全新奔馳純電CLA攜四大突破，重塑豪華純電新標桿

東風奕派兩周年獻禮，eπ007+攜四大優(yōu)勢登場，助力新能源賽道加速跑

東風奕派兩周年獻禮：eπ007+攜四大優(yōu)勢登場，為年輕人出行注入新動力

東風奕派eπ007+高能登場，以“奕派速度”為年輕人解鎖百萬級出行新體驗

嵐圖泰山來襲：外觀大氣內(nèi)飾豪華能否在高端SUV市場分一杯羹？

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

摩爾線程URPO框架入選AAAI 2026，為大模型訓練提供全新技術路徑