在競爭激烈的大模型領域,華為憑借其7180億參數的MoE架構模型openPangu-Ultra-MoE-718B,于最新一期SuperCLUE中文大模型通用基準測評中躋身前三,引發行業廣泛關注。該測評通過數學推理、科學推理、代碼生成等六大核心維度,綜合評估1260道題目,華為模型在開源與國產模型賽道中展現出強勁實力。
與傳統依賴海量數據堆砌的路徑不同,openPangu團隊提出“以思考替代堆砌”的訓練哲學,構建了覆蓋數據生成、篩選、增強的全流程質量控制體系。團隊建立三級審核機制,結合規則模型與人工評估,嚴格過濾低質量樣本;同時通過去重算法與壓縮選樣技術,在保證領域覆蓋廣度的前提下避免數據冗余。針對模型復雜場景推理能力不足的痛點,團隊引入自迭代拒絕采樣策略,重點強化中高難度任務訓練,確保模型適應真實世界的復雜需求。
在預訓練階段,團隊創新設計三階段遞進策略:通用階段通過大規模文本與代碼學習構建世界知識基礎;推理階段大幅提升數學、STEM及代碼數據比重,并引入詳細思維鏈(CoT)引導模型學習邏輯路徑;退火階段則通過階梯式擴展上下文長度至128K,同步增加指令類數據與Agent交互數據,為模型使用外部工具奠定基礎。這種分階段強化核心能力的訓練方式,有效平衡了模型的知識廣度與推理深度。
針對大型語言模型普遍存在的幻覺問題,研究團隊開發出“批判內化”機制。該機制突破傳統批判微調依賴固定人類反饋的局限,在模型訓練后期引入自我批判信號,使其能夠根據任務準則主動審視推理過程。實驗數據顯示,這一創新使模型在邏輯鏈條完整性、指令遵從性及價值觀對齊方面顯著提升,輸出結果更加精煉可靠。
在工具使用能力提升方面,團隊推出ToolACE合成框架,通過領域工具組合、交互式軌跡生成等技術,生成高復雜度多輪工具調用數據。例如將日歷查詢與航班預訂工具關聯,提供依賴關系圖譜;采用“計劃-執行”分離策略模擬真實交互場景;引入多智能體對話生成復雜交互數據。多維校驗機制則對生成數據進行內容滿足度、狀態變化正確性等維度評估,形成數據迭代優化的閉環。
后訓練階段,團隊實施三步優化方案:漸進動態微調通過平滑過渡常規SFT與動態微調模式,避免過擬合風險;強化學習階段采用GSPO算法提升大型MoE模型訓練穩定性;模型融合環節運用黑盒優化技術,自動搜索不同版本模型的最佳組合權重。這種系統性優化策略,使最終模型在綜合性能上實現質的飛躍。
openPangu-718B的成功實踐表明,大模型競爭的核心已從數據規模轉向技術深度。通過構建質量優先的數據體系、設計分階段能力強化路徑、創新幻覺控制機制、開發高仿真工具學習框架,華為為行業提供了技術突破的新范式。這種對技術細節的極致打磨,正重新定義大模型時代的核心競爭力標準。











