人工智能領(lǐng)域迎來(lái)重要突破:浙江大學(xué)與螞蟻集團(tuán)聯(lián)合研究團(tuán)隊(duì)提出新型訓(xùn)練框架TRAPO,成功實(shí)現(xiàn)用極少量標(biāo)注數(shù)據(jù)訓(xùn)練大型語(yǔ)言模型推理能力的目標(biāo)。這項(xiàng)發(fā)表于arXiv平臺(tái)(編號(hào)2512.13106v1)的研究成果,在數(shù)學(xué)推理任務(wù)中展現(xiàn)出驚人效果,僅用4000個(gè)標(biāo)注樣本就超越了傳統(tǒng)方法使用全部45000個(gè)標(biāo)注樣本的性能。
傳統(tǒng)AI訓(xùn)練方法面臨核心矛盾:要獲得強(qiáng)大的推理能力,模型需要海量標(biāo)注數(shù)據(jù)作為"標(biāo)準(zhǔn)答案"進(jìn)行對(duì)比學(xué)習(xí)。但在醫(yī)學(xué)診斷、金融風(fēng)控等專業(yè)領(lǐng)域,獲取準(zhǔn)確標(biāo)注的成本極其高昂。研究團(tuán)隊(duì)創(chuàng)新性地提出"師生互助學(xué)習(xí)"模式,將少量標(biāo)注數(shù)據(jù)比作經(jīng)驗(yàn)豐富的教師,大量無(wú)標(biāo)注數(shù)據(jù)視為同班同學(xué),通過(guò)觀察學(xué)習(xí)軌跡相似性來(lái)識(shí)別可靠樣本。
該框架的核心機(jī)制在于動(dòng)態(tài)追蹤每個(gè)訓(xùn)練樣本的"通過(guò)率軌跡"。在每個(gè)訓(xùn)練輪次中,模型會(huì)對(duì)每個(gè)問(wèn)題生成8個(gè)答案,標(biāo)注樣本通過(guò)與標(biāo)準(zhǔn)答案比對(duì)計(jì)算正確率,無(wú)標(biāo)注樣本則采用多數(shù)投票機(jī)制生成偽標(biāo)簽。隨著訓(xùn)練推進(jìn),系統(tǒng)會(huì)積累每個(gè)樣本正確率隨時(shí)間變化的曲線,這些曲線形狀的相似度成為判斷樣本可靠性的關(guān)鍵指標(biāo)。
實(shí)驗(yàn)數(shù)據(jù)令人振奮:在數(shù)學(xué)推理基準(zhǔn)測(cè)試中,使用1000個(gè)標(biāo)注樣本和3000個(gè)無(wú)標(biāo)注樣本的TRAPO模型,準(zhǔn)確率達(dá)到42.6%,超越使用45000個(gè)無(wú)標(biāo)注樣本的最佳無(wú)監(jiān)督方法(38.3%)。當(dāng)標(biāo)注數(shù)據(jù)量提升至4000個(gè)時(shí),模型在域內(nèi)測(cè)試準(zhǔn)確率達(dá)45.6%,域外測(cè)試達(dá)59.7%,全面超越完全監(jiān)督方法。更值得關(guān)注的是,這種優(yōu)勢(shì)在跨領(lǐng)域任務(wù)中依然保持,用數(shù)學(xué)領(lǐng)域標(biāo)注數(shù)據(jù)指導(dǎo)非數(shù)學(xué)領(lǐng)域訓(xùn)練時(shí),仍能獲得顯著性能提升。
技術(shù)實(shí)現(xiàn)包含多項(xiàng)創(chuàng)新設(shè)計(jì)。研究團(tuán)隊(duì)采用溫?zé)釂?dòng)機(jī)制,前8-10個(gè)訓(xùn)練輪次僅使用標(biāo)注數(shù)據(jù)建立基礎(chǔ)能力;開(kāi)發(fā)雙重篩選標(biāo)準(zhǔn),同時(shí)采用前10%相似度選擇和0.4固定閾值篩選;設(shè)計(jì)特殊的損失函數(shù),僅對(duì)可靠無(wú)標(biāo)注樣本進(jìn)行梯度更新。這些設(shè)計(jì)使系統(tǒng)既能避免無(wú)監(jiān)督學(xué)習(xí)的模型坍塌問(wèn)題,又能突破監(jiān)督學(xué)習(xí)的數(shù)據(jù)量限制。
理論基礎(chǔ)研究為方法有效性提供支撐。神經(jīng)切線核理論證明,語(yǔ)義相似問(wèn)題的梯度方向具有一致性,這直接導(dǎo)致學(xué)習(xí)軌跡的相似性。域適應(yīng)理論則解釋了軌跡匹配如何實(shí)現(xiàn)隱式域?qū)R,隨著可靠軌跡數(shù)據(jù)庫(kù)的擴(kuò)大,系統(tǒng)形成正向反饋循環(huán),持續(xù)提升判斷準(zhǔn)確性。這些理論成果不僅解釋了現(xiàn)象,更為后續(xù)優(yōu)化指明方向。
實(shí)際應(yīng)用場(chǎng)景廣泛。醫(yī)療領(lǐng)域可利用少量權(quán)威標(biāo)注病例指導(dǎo)大量未標(biāo)注病歷學(xué)習(xí),降低AI輔助診斷系統(tǒng)開(kāi)發(fā)成本;金融風(fēng)控能通過(guò)少量確認(rèn)欺詐案例識(shí)別相似模式交易;法律服務(wù)可借助專家標(biāo)注的關(guān)鍵案例提升文檔分析效率;教育技術(shù)領(lǐng)域則能構(gòu)建更精準(zhǔn)的個(gè)性化學(xué)習(xí)評(píng)估系統(tǒng)。研究團(tuán)隊(duì)特別強(qiáng)調(diào),標(biāo)注數(shù)據(jù)質(zhì)量對(duì)系統(tǒng)性能至關(guān)重要,領(lǐng)域相關(guān)性差異過(guò)大可能影響效果。
技術(shù)細(xì)節(jié)處理彰顯工程智慧。為控制內(nèi)存占用,系統(tǒng)僅保留最近輪次的軌跡信息;通過(guò)GPU并行化加速相似度計(jì)算;采用模塊化設(shè)計(jì)使其可與多種無(wú)監(jiān)督強(qiáng)化學(xué)習(xí)方法結(jié)合。在LLaMA-3.1-8B-Instruct和DeepSeek-R1-Distill-Qwen-1.5B等不同規(guī)模模型上的驗(yàn)證實(shí)驗(yàn),均展現(xiàn)出穩(wěn)定性能提升,證明方法具有良好泛化性。
這項(xiàng)研究重新定義了AI訓(xùn)練的數(shù)據(jù)利用效率標(biāo)準(zhǔn)。通過(guò)模擬人類學(xué)習(xí)中的模式識(shí)別機(jī)制,系統(tǒng)展現(xiàn)出在有限監(jiān)督信號(hào)下保持高效學(xué)習(xí)的能力。對(duì)于開(kāi)發(fā)者而言,這意味著可以用更低成本構(gòu)建高性能AI系統(tǒng);對(duì)于終端用戶,則可能迎來(lái)更多價(jià)格親民但功能強(qiáng)大的智能應(yīng)用。完整技術(shù)細(xì)節(jié)可通過(guò)arXiv平臺(tái)查詢論文編號(hào)2512.13106v1獲取。










