近期,機器學習領域關于參數高效微調(PEFT)的研究取得新進展。Thinking Machines團隊發布的第三篇論文《LoRA Without Regret》引發關注,該研究聚焦于LoRA(低秩適配)與全參數微調(FullFT)的性能對比,為模型定制化訓練提供了新思路。
隨著大模型參數量突破萬億級,預訓練數據量激增至數十萬億Token,基礎模型的性能提升高度依賴參數規模。然而,在后訓練階段,全參數微調的效率問題日益凸顯,參數高效微調技術因此成為研究熱點。LoRA作為典型方法,通過在原始權重矩陣W上疊加低秩修正項(W′=W+γBA),以遠少于W的參數實現模型適配。
研究團隊通過監督微調與強化學習實驗發現,LoRA的性能表現與數據集規模、訓練批量大小及模型層應用方式密切相關。在小到中等規模的指令微調和推理數據集中,LoRA可達到與FullFT相當的效果;但當數據集超出LoRA容量時,其性能會明顯下降。LoRA對大批量訓練的容忍度低于FullFT,性能差距隨批量增大而擴大,且這一現象與秩無關。
在模型層應用方面,研究揭示了LoRA效果的關鍵影響因素。將LoRA應用于所有權重矩陣(尤其是MLP和MoE層)時,模型表現顯著優于僅應用于注意力矩陣。實驗數據顯示,rank=256的僅注意力LoRA表現不如rank=128的僅MLP LoRA,盡管兩者參數量相近。這一發現挑戰了“注意力機制優先”的傳統認知,為LoRA的優化方向提供了新啟示。
強化學習場景下的實驗進一步驗證了LoRA的潛力。使用策略梯度算法時,即使rank低至1,LoRA仍能完全匹配FullFT的學習效果。在MATH和GSM數據集上,基于Llama-3.1-8B模型的實驗顯示,LoRA具有更寬的有效學習率范圍,并能達到與FullFT相同的峰值性能。大規模實驗(如DeepMath數據集)也證實,最優學習率下,不同秩的LoRA與FullFT訓練進展幾乎一致。
超參數選擇是LoRA應用的另一關鍵挑戰。研究提出了一種參數化方式,其中r為LoRA秩,α為縮放因子,A、B為權重矩陣。實驗表明,LoRA的最優學習率通常是FullFT的10倍,這一規律在監督學習和強化學習中均得到驗證。通過擬合14個Llama和Qwen模型的掃描結果,研究團隊還提出了基于模型隱層維度的最優學習率預測函數。
進一步分析發現,LoRA的初始化方式會導致有效學習率隨訓練進程變化。訓練初期,B矩陣初始化為零,此時A的更新對網絡輸出影響微弱;隨著B規模逐漸接近A,有效學習率逐步提升。短期訓練(約100步內)的最優學習率約為FullFT的15倍,長期訓練后收斂至10倍。這一動態特性為LoRA的超參數調優提供了理論依據。
研究總結了LoRA與FullFT性能相近的兩個核心條件:一是將LoRA應用于網絡所有層(尤其是MLP/MoE層),二是確保可訓練參數數量超過需學習的信息量。滿足這兩點時,LoRA的訓練動態與FullFT高度相似,直至觸及容量上限。該成果不僅推動了LoRA在定制化場景中的廣泛應用,也為機器學習基礎問題的研究提供了新視角。
相關論文及實驗數據已公開,研究團隊通過博客(https://thinkingmachines.ai/blog/lora/)和社交媒體(https://x.com/thinkymachines/status/1972708674100765006)分享了詳細成果,為學術界和工業界提供了重要參考。











