国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

ITBear旗下自媒體矩陣:

只用512張H200!106B模型靠分布式RL殺出重圍,全網開源

   時間:2025-12-11 17:05:13 來源:新智元編輯:快訊 IP:北京 發表評論無障礙通道
 

最近,Prime Intellect正式發布了INTELLECT-3。

這是一款擁有106B參數的混合專家(Mixture-of-Experts)模型,基于Prime Intellect的強化學習(RL)技術棧訓練。

在數學、代碼、科學與推理的各類基準測試上,它達成了同規模中最強的成績,甚至超越了不少更大的前沿模型。

Prime Intellect已經把完整的訓練流程——包括模型權重、訓練框架、數據集、RL環境和評測體系——全部開源,希望能推動更多關于大規模強化學習的開放研究。

INTELLECT-3使用的訓練軟件與基礎設施,與即將在Prime Intellect平臺向所有人開放的版本完全一致。

這意味著未來每個人、每家公司都能擁有對最先進模型進行后訓練的能力。

多項基準,斬獲SOTA

INTELLECT-3是一個106B參數的Mixture-of-Experts(MoE)模型,基于GLM 4.5 Air進行了監督微調(SFT)和強化學習訓練。

它在數學、代碼、科學和推理類Benchmark上均取得了同體量中的最強表現。

訓練框架

訓練中,Prime Intellect使用了以下核心組件:

PRIME-RL:自研的分布式RL框架,支持監督微調和大規模MoE模型的強化學習。

Verifiers與 Environments Hub:統一的環境接口與生態,用于各類智能體式RL環境與評測。

Prime Sandboxes:高吞吐、安全的代碼執行系統,用于智能體代碼類環境。

算力編排:在64個互聯節點上的512張NVIDIA H200 GPU完成調度與管理。

INTELLECT-3完整使用PRIME-RL進行端到端訓練。

這套框架與Verifiers環境深度整合,支撐從合成數據生成、監督微調、強化學習到評估的整個后訓練體系。

通過與Environments Hub的緊密連接,訓練系統可以順暢訪問不斷擴展的環境與評測任務集合。

PRIME-RL最顯著的特點是全分布式(async-only)。

研究團隊在上一代INTELLECT-2時就已經確認:

RL的未來一定是分布式的,也就是始終處于輕微off-policy的狀態。

因為在長時序智能體rollout中,分布式是唯一能避免速度瓶頸、真正擴大訓練規模的方式。

過去6個月,研究團隊重點做了大量關于性能、穩定性和大規模效率的消融實驗,INTELLECT-3正是這些研究的成果。

Prime Intellect也將在即將上線的Lab平臺提供托管式PRIME-RL,訪問者無需處理復雜基礎設施就能進行大規模RL訓練。

訓練環境

INTELLECT-3的訓練環境由Verifiers庫構建,并托管于Environments Hub,這是Prime Intellect面向社區的RL環境與評測中心。

Verifiers是當前領先的開源工具,用來為模型構建RL環境與評測任務。

它提供模塊化、可擴展的組件,讓復雜環境邏輯也能以簡潔方式描述,同時保持極高性能與吞吐。

傳統的RL框架通常把環境強綁定在訓練倉庫里,使得版本管理、消融與外部貢獻都不方便。

Environments Hub則把基于Verifiers的環境作為獨立、可鎖定版本的Python模塊發布,并統一入口點,讓任務可以獨立版本化、共享與持續迭代。

INTELLECT-3使用的所有環境和評測,均已公開在Environments Hub。

為了支持強化學習,Prime Intellect大幅擴展并升級了自研的Sandboxes基礎設施。

在幾千條并發rollout中安全執行外部代碼,需要一個具備亞秒級啟動、毫秒級執行延遲的容器編排層。

雖然Kubernetes提供了底層能力,但常規架構并無法滿足這種高速度的訓練需求。

Prime Sandboxes可以繞過Kubernetes控制面板,通過Rust直接與pod通信,做到接近本地進程的延遲;即使在大規模并發下也能在10秒內啟動,且每個節點可穩定運行數百個隔離沙箱。

在Verifiers中,研究人員將沙箱啟動與模型首輪推理并行,從而完全消除代碼執行前的可感知等待時間。

算力調度

研究人員在64個互聯節點上部署了512張NVIDIA H200 GPU。

最大工程挑戰是如何在可能出現硬件故障的分布式系統里保持確定性與同步。

資源準備:使用Ansible做基礎設施即代碼、自動發現硬件,并進行InfiniBand預檢以隔離慢節點或故障節點。

調度:通過Slurm+ cgroup v2確保任務可以干凈退出,不會留下占用GPU顯存的殘留進程。

存儲:用Lustre提供高吞吐訓練I/O,用NVMe NFS作為快速元數據與便捷SSH存儲。

可觀測性:通過DCGM+ Prometheus監控,能在問題擴大前快速發現并下線不穩定節點。

訓練方案

INTELLECT-3主要分兩階段:

基于GLM-4.5-Air的監督微調,以及大規模RL訓練。

兩個階段以及多輪消融實驗都在512張H200 GPU上運行,總共持續兩個月。

研究人員訓練了覆蓋數學、代碼、科學、邏輯、深度研究、軟件工程等類別的多樣化RL環境,用來提升模型的推理與智能體能力。

所有環境均已在Environments Hub上公開。

所有基準測試也都提供了標準化且驗證過的實現。

未來,Prime Intellect的工作重點包括:

擴展智能體式RL:研究人員將繼續訓練,并更強調智能體環境,預計能在更多任務上獲得進一步提升。

更豐富的RL環境:Environments Hub已擁有 500+ 任務,涵蓋研究、電腦使用、定理證明、自動化和專業領域。INTELLECT-3 只用到了其中一小部分,下一步是讓RL覆蓋更多、更高質量的社區任務。

長時序智能體:研究人員正在讓模型能夠自我管理上下文(如裁剪上下文、分支推理、維護輕量外部記憶),從而讓長時序行為真正可通過RL訓練。未來也會探索專門獎勵長時序推理的環境。

Prime Intellect正在構建開放的超級智能技術棧,把訓練前沿模型的能力交到每個人手里。

INTELLECT-3 也證明:即使不是大實驗室,也可以訓練出與頂尖團隊同臺競技的模型。

 
 
更多>同類資訊
全站最新
熱門內容
網站首頁  |  關于我們  |  聯系方式  |  版權聲明  |  爭議稿件處理  |  English Version
 
国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级
欧美日韩综合不卡| 亚洲视频在线一区| 欧美日韩综合在线免费观看| 一本色道**综合亚洲精品蜜桃冫| 97超碰欧美中文字幕| 97精品视频在线观看自产线路二| a级精品国产片在线观看| 成人动漫一区二区在线| 一本一道久久a久久精品综合蜜臀| 成人毛片视频在线观看| 99re这里都是精品| 欧美日韩国产综合一区二区三区| 欧美日韩一区高清| 久久日一线二线三线suv| 国产精品久久久久影院老司 | 亚洲成av人片www| 人人精品人人爱| 高清在线不卡av| 欧美四级电影网| 久久久久久久网| 亚洲激情成人在线| 国产综合色在线| 欧美日韩在线一区二区| 2欧美一区二区三区在线观看视频| 国产精品美女久久久久aⅴ | 欧美日韩美少妇| 国产欧美一区二区三区鸳鸯浴| 亚洲男同1069视频| 国产伦精一区二区三区| 欧洲精品中文字幕| 欧美国产视频在线| 久久se这里有精品| 欧美日韩激情在线| 日韩毛片精品高清免费| 国产尤物一区二区| 91麻豆精品国产91| 一区二区三区免费| 99国产精品久| 国产精品传媒在线| 成人在线综合网站| 久久综合狠狠综合久久综合88| 一区二区高清免费观看影视大全| 国产iv一区二区三区| 精品国产露脸精彩对白| 美女视频黄频大全不卡视频在线播放| 99国产精品99久久久久久| 久久精品夜夜夜夜久久| 另类小说欧美激情| 日韩女同互慰一区二区| 美腿丝袜亚洲综合| 91精品国产综合久久福利 | 精品视频123区在线观看| 一区二区三区四区蜜桃 | 无码av中文一区二区三区桃花岛| 色哦色哦哦色天天综合| 亚洲精品视频免费看| 91婷婷韩国欧美一区二区| 国产精品成人免费在线| 99re66热这里只有精品3直播 | 日本一区二区综合亚洲| 国产成人精品三级| 欧美mv日韩mv国产网站app| 日韩欧美视频在线| 国内精品写真在线观看| 久久品道一品道久久精品| 国产不卡视频在线播放| 自拍偷拍欧美精品| 欧美亚日韩国产aⅴ精品中极品| 亚洲自拍偷拍av| 欧美一区二区啪啪| 国产传媒一区在线| 一区二区三区在线视频播放| 欧美日韩一区国产| 国产麻豆视频精品| 亚洲精品免费在线| 欧美成人一区二区三区在线观看| 国产一区二区三区精品视频| 亚洲日本在线a| 欧美日韩三级在线| 国产91高潮流白浆在线麻豆 | 日韩精品亚洲一区| 欧美激情中文字幕一区二区| 色婷婷久久久综合中文字幕| 免费观看成人鲁鲁鲁鲁鲁视频| 久久久五月婷婷| 欧美麻豆精品久久久久久| 国产成人精品综合在线观看| 亚洲一区二区三区视频在线播放 | 日韩免费看的电影| av在线不卡免费看| 激情综合亚洲精品| 亚洲资源中文字幕| 国产精品国产三级国产有无不卡| 91 com成人网| 色爱区综合激月婷婷| 国产福利不卡视频| 久久疯狂做爰流白浆xx| 亚洲一二三专区| 亚洲精品亚洲人成人网 | 精品视频一区二区三区免费| 国产白丝精品91爽爽久久| 琪琪一区二区三区| 午夜影视日本亚洲欧洲精品| 亚洲丝袜制服诱惑| 国产精品传媒入口麻豆| 国产亚洲一区字幕| 精品粉嫩超白一线天av| 日韩一区二区在线免费观看| 欧洲色大大久久| 欧美日韩午夜在线| 欧美怡红院视频| 在线精品视频免费观看| 色哟哟一区二区| 色综合久久综合网| 在线中文字幕不卡| 欧美午夜寂寞影院| 欧美日韩国产综合草草| 欧美手机在线视频| 欧美日韩在线播| 91精品国产综合久久久蜜臀图片| 欧美狂野另类xxxxoooo| 91精品国产高清一区二区三区| 欧美精品日韩一区| 精品黑人一区二区三区久久| 精品国产乱码91久久久久久网站| 久久综合久久99| 国产精品理伦片| 亚洲一区二区欧美日韩 | av资源网一区| 在线观看日韩高清av| 在线成人小视频| 精品国产一区二区三区不卡 | 1024成人网色www| 亚洲综合一区在线| 日本亚洲电影天堂| 国产成人午夜精品5599| 91老司机福利 在线| 3d成人动漫网站| 中文无字幕一区二区三区| 中文字幕在线不卡一区二区三区| 亚洲自拍偷拍网站| 国精产品一区一区三区mba桃花| 国产91丝袜在线观看| 欧美日韩亚洲综合在线 欧美亚洲特黄一级 | 国产麻豆91精品| 在线亚洲+欧美+日本专区| 欧美一级生活片| 自拍av一区二区三区| 精品一区二区久久久| 欧洲精品一区二区| 国产亚洲精品7777| 日韩和欧美的一区| 91蜜桃视频在线| 国产午夜久久久久| 蜜桃av一区二区三区| 欧美性色综合网| 国产精品久久午夜| 国产一二三精品| 欧美三级韩国三级日本一级| 中文在线资源观看网站视频免费不卡| 日韩国产在线观看一区| 色综合av在线| 自拍偷拍亚洲综合| a级精品国产片在线观看| 久久久蜜臀国产一区二区| 五月婷婷欧美视频| 色爱区综合激月婷婷| 1024亚洲合集| 91麻豆国产福利精品| 中文字幕精品一区二区三区精品| 九九九久久久精品| 精品久久一区二区三区| 美女脱光内衣内裤视频久久网站| 7777精品久久久大香线蕉| 亚洲成人自拍网| 欧美吻胸吃奶大尺度电影| 一区二区三区在线观看国产 | 欧美sm美女调教| 久久国产成人午夜av影院| 日韩欧美卡一卡二| 精品中文av资源站在线观看| 日韩欧美国产麻豆| 国产一区二区三区免费看| 久久亚洲欧美国产精品乐播| 国产麻豆成人传媒免费观看| 久久精品一区二区三区不卡| 国产黄色精品视频| 国产精品国产三级国产aⅴ入口| 成人性视频免费网站| 亚洲欧美日韩国产成人精品影院| 日本乱人伦aⅴ精品| 亚洲图片欧美综合| 91精品国产91热久久久做人人| 久久精品国产秦先生| 久久久www免费人成精品| 成人高清视频在线| 亚洲成av人片在线观看| 欧美电影免费提供在线观看| 成人视屏免费看| 日韩精品欧美精品|