人工智能領域迎來重要突破,清華大學計算機系研究團隊提出一種名為SIRI的創新訓練方法,成功解決了大型語言模型"思維冗長"的難題。該方法通過動態調整模型輸出長度,使模型在保持高準確率的同時顯著減少冗余內容,相關成果已發表于arXiv預印本平臺。
當前主流的大型推理模型普遍存在"過度思考"的問題。以簡單算術題"2+3"為例,模型可能生成包含多次驗證步驟的長篇回答,而非直接給出正確答案。這種"測試時擴展"現象雖能提高復雜任務的準確率,卻導致計算資源浪費和用戶體驗下降。傳統解決方案如長度懲罰或強制截斷,往往以犧牲準確率為代價,形成"要效率還是要質量"的兩難困境。
研究團隊提出的SIRI方法創造性地引入"動態長度調度"機制。該方法將訓練過程分解為交替進行的壓縮階段和擴張階段:在壓縮階段,模型需在嚴格長度限制下完成推理,迫使其提煉核心邏輯;在擴張階段,模型獲得充分表達空間,鞏固優化后的推理模式。這種"張弛有度"的訓練方式,使模型逐步掌握根據任務難度調整思考深度的能力。
實驗數據顯示,采用SIRI方法訓練的1.5億參數模型在AIME24數學競賽測試中表現卓越。與原始模型相比,其解題準確率從28.2%提升至40.4%,增幅達43.2%,同時輸出長度減少46.9%。更值得注意的是,該方法在70億參數的大型模型上同樣有效,準確率提升3.6個百分點的同時輸出長度壓縮16.7%,證明其具有跨規模普適性。
技術實現層面,研究團隊采用改進的GRPO強化學習算法,設計出"長度截斷獎勵"機制。模型只有在指定長度內給出正確答案才能獲得正向反饋,這種嚴格標準促使模型優化推理路徑。長度調度器采用640步長的余弦式變化曲線,既保證模型有足夠時間適應長度變化,又避免因周期過短導致的性能波動。
深入分析發現,SIRI方法主要優化了模型的"回溯驗證"行為。在壓縮階段,模型減少"再檢查一下"等驗證性表述的使用頻率,同時保持基礎推理詞匯的穩定輸出。輸出熵值分析顯示,模型在壓縮階段確定性增強,擴張階段多樣性恢復,但整體維持在合理范圍,表明該方法成功平衡了精確性與探索性。
實際應用價值方面,該方法可顯著降低AI服務成本。以API調用為例,輸出長度減少40%以上意味著直接降低計算資源消耗。在教育領域,更簡潔準確的回答能提升學習效率;在代碼生成場景,減少冗余注釋可提高開發效率。研究團隊已公開訓練代碼和模型權重,推動技術社區的進一步驗證與應用。
該成果為AI訓練范式提供了新思路。不同于單純擴大模型規模或增加訓練數據,SIRI方法通過優化訓練策略實現性能躍升。這種"四兩撥千斤"的解決方案,或許能為圖像生成、語音處理等其他AI領域提供借鑒,推動整個行業向更高效、更實用的方向發展。
Q&A
問:SIRI方法與傳統長度控制技術有何本質區別?
答:傳統方法采用靜態限制策略,要么始終懲罰長輸出,要么強制截斷,導致模型在簡潔性與準確性間難以平衡。SIRI方法通過動態交替訓練,使模型自主學習根據任務需求調整思考深度,既避免過度冗長又防止思考不足,實現質量與效率的雙重提升。
問:該方法對不同難度任務的效果是否一致?
答:實驗表明SIRI方法具有任務普適性。在簡單測試集如AMC上,模型在保持95%以上準確率的同時輸出長度減少30%;在復雜測試集AIME24上,準確率提升幅度超過50%。這種穩定性源于方法對推理過程本質的把握,而非針對特定任務的優化。
問:普通開發者如何應用這項技術?
答:研究團隊已開放完整實現代碼,開發者可通過修改長度調度參數適配不同場景。例如,教育類應用可采用更頻繁的壓縮階段培養模型簡潔表達能力;科研場景則可延長擴張階段鼓勵深度探索。這種靈活性使SIRI方法能快速落地各類實際應用。












