京東云旗下的JoyBuilder模型開發平臺近日完成重要技術升級,成功助力全球頂尖具身智能模型GR00T N1.5完成千卡級集群訓練任務。這一突破性進展使該平臺成為業內首個支持LeRobot開源訓練框架實現千卡級具身智能訓練的AI開發環境,其訓練效率較開源社區基礎版本實現3.5倍提升,標志著具身智能技術向規模化應用邁出關鍵一步。
技術團隊通過深度軟硬件協同優化,將原本需要15小時完成的1億級數據量千卡訓練任務壓縮至22分鐘。在數據鏈路層面,平臺重構了數據預處理與加載機制,通過CPU與GPU的異步執行設計,顯著降低了計算資源閑置時間。針對具身智能特有的海量小文件特征,自主研發的云海JPFS并行文件系統采用分布式元數據管理架構,在1024卡集群環境下實現超過400GB/s的持續讀取帶寬,為模型訓練提供穩定的數據流支撐。
計算優化方面,研發團隊針對視覺-語言-動作(VLA)模型的架構特性,在注意力機制層、動態令牌裁剪和訓練后量化等關鍵環節實施深度調優。基礎設施層面搭建的3.2T RDMA高速網絡,通過多軌道流量優化、拓撲感知調度和智能震蕩抑制技術,確保千卡集群間的通信延遲控制在微秒級,保障了長達數周的連續訓練穩定性。配合云原生架構的AI數據湖系統,平臺實現了從數據采集到模型輸出的全流程效率提升。
此次升級使JoyBuilder平臺全面兼容LeRobot訓練數據最新協議標準,在具身智能開發領域建立起顯著的技術優勢。通過端到端的系統性優化,平臺不僅解決了大規模訓練中的數據供給瓶頸,更在計算效率、通信穩定性和資源利用率等核心指標上達到行業領先水平,為具身智能技術的工程化落地提供了關鍵基礎設施支撐。







