滾動資訊

當前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

Thinking Machines新研究：LoRA滿足兩條件，學習率10倍可媲美全參微調(diào)

時間：2025-10-01 01:06:59 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

近期，機器學習領域關于參數(shù)高效微調(diào)（PEFT）的研究取得新進展。Thinking Machines團隊發(fā)布的第三篇論文《LoRA Without Regret》引發(fā)關注，該研究聚焦于LoRA（低秩適配）與全參數(shù)微調(diào)（FullFT）的性能對比，為模型定制化訓練提供了新思路。

隨著大模型參數(shù)量突破萬億級，預訓練數(shù)據(jù)量激增至數(shù)十萬億Token，基礎模型的性能提升高度依賴參數(shù)規(guī)模。然而，在后訓練階段，全參數(shù)微調(diào)的效率問題日益凸顯，參數(shù)高效微調(diào)技術因此成為研究熱點。LoRA作為典型方法，通過在原始權重矩陣W上疊加低秩修正項（W′=W+γBA），以遠少于W的參數(shù)實現(xiàn)模型適配。

研究團隊通過監(jiān)督微調(diào)與強化學習實驗發(fā)現(xiàn)，LoRA的性能表現(xiàn)與數(shù)據(jù)集規(guī)模、訓練批量大小及模型層應用方式密切相關。在小到中等規(guī)模的指令微調(diào)和推理數(shù)據(jù)集中，LoRA可達到與FullFT相當?shù)男Ч坏敂?shù)據(jù)集超出LoRA容量時，其性能會明顯下降。LoRA對大批量訓練的容忍度低于FullFT，性能差距隨批量增大而擴大，且這一現(xiàn)象與秩無關。

在模型層應用方面，研究揭示了LoRA效果的關鍵影響因素。將LoRA應用于所有權重矩陣（尤其是MLP和MoE層）時，模型表現(xiàn)顯著優(yōu)于僅應用于注意力矩陣。實驗數(shù)據(jù)顯示，rank=256的僅注意力LoRA表現(xiàn)不如rank=128的僅MLP LoRA，盡管兩者參數(shù)量相近。這一發(fā)現(xiàn)挑戰(zhàn)了“注意力機制優(yōu)先”的傳統(tǒng)認知，為LoRA的優(yōu)化方向提供了新啟示。

強化學習場景下的實驗進一步驗證了LoRA的潛力。使用策略梯度算法時，即使rank低至1，LoRA仍能完全匹配FullFT的學習效果。在MATH和GSM數(shù)據(jù)集上，基于Llama-3.1-8B模型的實驗顯示，LoRA具有更寬的有效學習率范圍，并能達到與FullFT相同的峰值性能。大規(guī)模實驗（如DeepMath數(shù)據(jù)集）也證實，最優(yōu)學習率下，不同秩的LoRA與FullFT訓練進展幾乎一致。

超參數(shù)選擇是LoRA應用的另一關鍵挑戰(zhàn)。研究提出了一種參數(shù)化方式，其中r為LoRA秩，α為縮放因子，A、B為權重矩陣。實驗表明，LoRA的最優(yōu)學習率通常是FullFT的10倍，這一規(guī)律在監(jiān)督學習和強化學習中均得到驗證。通過擬合14個Llama和Qwen模型的掃描結果，研究團隊還提出了基于模型隱層維度的最優(yōu)學習率預測函數(shù)。

進一步分析發(fā)現(xiàn)，LoRA的初始化方式會導致有效學習率隨訓練進程變化。訓練初期，B矩陣初始化為零，此時A的更新對網(wǎng)絡輸出影響微弱；隨著B規(guī)模逐漸接近A，有效學習率逐步提升。短期訓練（約100步內(nèi)）的最優(yōu)學習率約為FullFT的15倍，長期訓練后收斂至10倍。這一動態(tài)特性為LoRA的超參數(shù)調(diào)優(yōu)提供了理論依據(jù)。

研究總結了LoRA與FullFT性能相近的兩個核心條件：一是將LoRA應用于網(wǎng)絡所有層（尤其是MLP/MoE層），二是確保可訓練參數(shù)數(shù)量超過需學習的信息量。滿足這兩點時，LoRA的訓練動態(tài)與FullFT高度相似，直至觸及容量上限。該成果不僅推動了LoRA在定制化場景中的廣泛應用，也為機器學習基礎問題的研究提供了新視角。

相關論文及實驗數(shù)據(jù)已公開，研究團隊通過博客（https://thinkingmachines.ai/blog/lora/）和社交媒體（https://x.com/thinkymachines/status/1972708674100765006）分享了詳細成果，為學術界和工業(yè)界提供了重要參考。

10-13

魯商科技“智能教育平臺”入選山東首批“百景智能”應用場景驅動教育變革

AI在魯商聽見魯商近日，山東省首批人工智能大模型“百景智能”典型應用場景名單公布，魯商科技“智能教育平臺”成功入選。人工智能大模型“百景智能”典型應用場景征集旨在加快推動人工智能大模型在我省科研、政務、…

10-13

中國移動“AI+”大會星光熠熠：華為阿里齊聚智元宇樹等秀出AI新實力

另一個則是阿里巴巴，其是中國移動共建AI產(chǎn)業(yè)新生態(tài)的戰(zhàn)略合作伙伴，在展廳當中，阿里云展示了全棧自研AI云技術，全面呈現(xiàn)覆蓋AI基礎設施、大模型平臺及行業(yè)場景應用的一體化解決方案，展現(xiàn)端到端的智能化服務能力。…

10-13

海爾與阿里達成全面AI合作聚焦多領域共探產(chǎn)業(yè)AI轉型新路徑

在先進制造領域，雙方將攜手共建從算力、模型、平臺到應用的整體AI服務體系，充分整合海爾卡奧斯工業(yè)互聯(lián)網(wǎng)的平臺能力，并結合阿里在算力領域的深度布局，共同推進人工智能在制造、服務等重點場景的技術突破與應用創(chuàng)新，…

10-13

中國移動“AI+”大會盛啟：華為阿里等齊聚，智元宇樹等展機器人新魅力

另一個則是阿里巴巴，其是中國移動共建AI產(chǎn)業(yè)新生態(tài)的戰(zhàn)略合作伙伴，在展廳當中，阿里云展示了全棧自研AI云技術，全面呈現(xiàn)覆蓋AI基礎設施、大模型平臺及行業(yè)場景應用的一體化解決方案，展現(xiàn)端到端的智能化服務能力。…

10-13

馬斯克透露Grok將上線新功能：分析視頻比特流檢測AI痕跡并追溯來源

IT之家注意到，一名 X 平臺（前身為 Twitter）用戶 10 月 9 日在一篇帖子中表達了此類擔憂：“在未來一兩年內(nèi) —— 很可能更早—— 任何討厭你的人，都可以生成你做出或說出惡劣言行的虛假視頻，…

10-13

科華數(shù)據(jù)：“智算+光儲”融合創(chuàng)新，開啟算電協(xié)同發(fā)展新篇章

上述負責人表示，公司與頭部國產(chǎn)GPU廠商聯(lián)合推出高密度液冷算力POD，專為高性能GPU服務器集群自主研發(fā)新一代基礎設施微環(huán)境，可高效支撐AI訓練、推理及通用計算等多樣化場景，為高性能算力需求提供穩(wěn)定、高效、靈…

10-13

2025全國高校人工智能教育大會啟幕優(yōu)秀案例論文征集邀您共赴西安領獎

召集人工智能教學領域優(yōu)秀的教師，以實訓案例和論文的形式分享其先進的教學理念、靈活的教學方式和優(yōu)秀的教學成果，進一步建設全國優(yōu)秀人工智能實訓案例庫，推動人工智能教學的改革與進步，助力我國高質(zhì)量人工智能人才的培養(yǎng)…

10-13

奧特曼1萬億AI交易引科技圈熱議：是領航者還是冒進者？

網(wǎng)絡安全公司Rubrik的CEO兼聯(lián)合創(chuàng)始人比普爾·辛哈(BipulSinha)表示，對于奧特曼來說，全力以赴是有道理的，因為AI正在以前所未有的速度發(fā)展。 Augmod CEO羅斯·芬曼(Ross Fi…

10-13

馬斯克xAI入局“世界模型”角逐，“視覺模型”能否開啟AI新紀元？

10-13

美圖：AI賦能開啟全球影像新篇，從修圖到創(chuàng)意延伸的跨越之旅

10-13

奧爾特曼談AI與工作：崗位或變但不必憂，人類總能找到新方向

10-13

日本NexTech Week秋季展引3萬觀眾萬興科技攜ToMoviee AI首秀日本獲高度認可

10-13

中國移動發(fā)布CMobile國際品牌，布局全球生態(tài)，攜手伙伴共筑數(shù)智未來

10-13

蘋果前CEO斯卡利：AI時代OpenAI成勁敵，蘋果需向智能體時代轉型

10-13

點擊查看更多 +

全站最新

混動時代新挑戰(zhàn)：統(tǒng)一全合成制動液如何提升傳動靈敏度適配油電兼容

法拉利首款純電Elettrica將至！近3米軸距+千匹馬力，重塑豪華電動GT格局

比亞迪純電銷量持續(xù)領跑：技術賦能與全球布局共促中國智造新跨越

全新MG4搭載半固態(tài)電池破局：以技術普惠開拓市場，引領行業(yè)新方向

五菱星光730動力配置全揭秘：電/油/插混三版齊發(fā)，10月15日開啟預售

智己“恒星”超級增程打破界限，讓純電與增程之爭迎來完美和解

熱門內(nèi)容

本欄最新

截至10月11日，上海累計完成119款生成式AI服務登記，新增5款

截至2025年10月9日北京市新增3款生成式AI服務累計備案達161款

清華物理才子姚順宇告別Anthropic，攜所學投身谷歌DeepMind開啟新征程

占地1300平方米！智元機器人全國首家具身智能體驗中心落地無錫

第22屆東博會AI元素亮眼：數(shù)字智能體引路機器人炫技展風采

AI云競爭下半場：華為以超節(jié)點、企業(yè)Agent等破局，誰能領跑產(chǎn)業(yè)？

本網(wǎng)站LOGO小熊標志受版權保護，版權登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務。如本站內(nèi)容侵犯了您的權利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 商業(yè)合作入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

Thinking Machines新研究：LoRA滿足兩條件，學習率10倍可媲美全參微調(diào)