近期,機器學習領域關于參數(shù)高效微調(diào)(PEFT)的研究取得新進展。Thinking Machines團隊發(fā)布的第三篇論文《LoRA Without Regret》引發(fā)關注,該研究聚焦于LoRA(低秩適配)與全參數(shù)微調(diào)(FullFT)的性能對比,為模型定制化訓練提供了新思路。
隨著大模型參數(shù)量突破萬億級,預訓練數(shù)據(jù)量激增至數(shù)十萬億Token,基礎模型的性能提升高度依賴參數(shù)規(guī)模。然而,在后訓練階段,全參數(shù)微調(diào)的效率問題日益凸顯,參數(shù)高效微調(diào)技術因此成為研究熱點。LoRA作為典型方法,通過在原始權重矩陣W上疊加低秩修正項(W′=W+γBA),以遠少于W的參數(shù)實現(xiàn)模型適配。
研究團隊通過監(jiān)督微調(diào)與強化學習實驗發(fā)現(xiàn),LoRA的性能表現(xiàn)與數(shù)據(jù)集規(guī)模、訓練批量大小及模型層應用方式密切相關。在小到中等規(guī)模的指令微調(diào)和推理數(shù)據(jù)集中,LoRA可達到與FullFT相當?shù)男Ч坏敂?shù)據(jù)集超出LoRA容量時,其性能會明顯下降。LoRA對大批量訓練的容忍度低于FullFT,性能差距隨批量增大而擴大,且這一現(xiàn)象與秩無關。
在模型層應用方面,研究揭示了LoRA效果的關鍵影響因素。將LoRA應用于所有權重矩陣(尤其是MLP和MoE層)時,模型表現(xiàn)顯著優(yōu)于僅應用于注意力矩陣。實驗數(shù)據(jù)顯示,rank=256的僅注意力LoRA表現(xiàn)不如rank=128的僅MLP LoRA,盡管兩者參數(shù)量相近。這一發(fā)現(xiàn)挑戰(zhàn)了“注意力機制優(yōu)先”的傳統(tǒng)認知,為LoRA的優(yōu)化方向提供了新啟示。
強化學習場景下的實驗進一步驗證了LoRA的潛力。使用策略梯度算法時,即使rank低至1,LoRA仍能完全匹配FullFT的學習效果。在MATH和GSM數(shù)據(jù)集上,基于Llama-3.1-8B模型的實驗顯示,LoRA具有更寬的有效學習率范圍,并能達到與FullFT相同的峰值性能。大規(guī)模實驗(如DeepMath數(shù)據(jù)集)也證實,最優(yōu)學習率下,不同秩的LoRA與FullFT訓練進展幾乎一致。
超參數(shù)選擇是LoRA應用的另一關鍵挑戰(zhàn)。研究提出了一種參數(shù)化方式,其中r為LoRA秩,α為縮放因子,A、B為權重矩陣。實驗表明,LoRA的最優(yōu)學習率通常是FullFT的10倍,這一規(guī)律在監(jiān)督學習和強化學習中均得到驗證。通過擬合14個Llama和Qwen模型的掃描結果,研究團隊還提出了基于模型隱層維度的最優(yōu)學習率預測函數(shù)。
進一步分析發(fā)現(xiàn),LoRA的初始化方式會導致有效學習率隨訓練進程變化。訓練初期,B矩陣初始化為零,此時A的更新對網(wǎng)絡輸出影響微弱;隨著B規(guī)模逐漸接近A,有效學習率逐步提升。短期訓練(約100步內(nèi))的最優(yōu)學習率約為FullFT的15倍,長期訓練后收斂至10倍。這一動態(tài)特性為LoRA的超參數(shù)調(diào)優(yōu)提供了理論依據(jù)。
研究總結了LoRA與FullFT性能相近的兩個核心條件:一是將LoRA應用于網(wǎng)絡所有層(尤其是MLP/MoE層),二是確保可訓練參數(shù)數(shù)量超過需學習的信息量。滿足這兩點時,LoRA的訓練動態(tài)與FullFT高度相似,直至觸及容量上限。該成果不僅推動了LoRA在定制化場景中的廣泛應用,也為機器學習基礎問題的研究提供了新視角。
相關論文及實驗數(shù)據(jù)已公開,研究團隊通過博客(https://thinkingmachines.ai/blog/lora/)和社交媒體(https://x.com/thinkymachines/status/1972708674100765006)分享了詳細成果,為學術界和工業(yè)界提供了重要參考。











