強(qiáng)化學(xué)習(xí)微調(diào)作為提升大型語言模型高級能力的關(guān)鍵技術(shù),在實(shí)際應(yīng)用中卻面臨訓(xùn)練不穩(wěn)定、性能提升困難等問題。傳統(tǒng)觀點(diǎn)認(rèn)為這些問題的根源在于復(fù)雜的算法設(shè)計缺陷,然而,最新研究指出,數(shù)值精度才是導(dǎo)致這些問題的關(guān)鍵因素。
當(dāng)前,BF16格式因其在預(yù)訓(xùn)練階段的穩(wěn)定表現(xiàn),已成為業(yè)界廣泛采用的標(biāo)準(zhǔn)配置。然而,在強(qiáng)化學(xué)習(xí)微調(diào)的精細(xì)調(diào)整過程中,BF16的低精度特性反而成為阻礙。研究發(fā)現(xiàn),BF16在訓(xùn)練和推理過程中引發(fā)的“訓(xùn)練-推理不匹配”現(xiàn)象,是導(dǎo)致訓(xùn)練任務(wù)失敗和崩潰的主要原因。這一現(xiàn)象表現(xiàn)為訓(xùn)練引擎和推理引擎在計算結(jié)果上的微小數(shù)值偏差,這些偏差在長序列生成任務(wù)中不斷累積,最終導(dǎo)致模型性能顯著下降。
為解決這一問題,研究團(tuán)隊(duì)將目光投向了另一種16位浮點(diǎn)格式——FP16。與BF16不同,F(xiàn)P16在尾數(shù)部分分配了更多位數(shù),使其能夠更精確地表示數(shù)值,從而減少舍入誤差。盡管FP16的動態(tài)范圍較小,但在強(qiáng)化學(xué)習(xí)微調(diào)階段,模型的權(quán)重和激活值范圍已相對穩(wěn)定,不再需要BF16那樣大的動態(tài)范圍。因此,F(xiàn)P16的高精度特性成為解決訓(xùn)練不穩(wěn)定問題的關(guān)鍵。研究團(tuán)隊(duì)通過一系列實(shí)驗(yàn)驗(yàn)證了FP16的有效性。他們構(gòu)建了一個“完美可解”的數(shù)據(jù)集,以排除數(shù)據(jù)集難度分布對實(shí)驗(yàn)結(jié)果的干擾。在這個數(shù)據(jù)集上,基于FP16的算法展現(xiàn)出了極高的訓(xùn)練穩(wěn)定性,不僅從未崩潰,而且收斂速度飛快,最終性能全面超越了基于BF16的算法。實(shí)驗(yàn)還發(fā)現(xiàn),所有最終崩潰的BF16算法在崩潰前都表現(xiàn)出訓(xùn)練策略和推理策略之間差異持續(xù)增大的特征,這表明差異程度可作為訓(xùn)練健康狀況的監(jiān)測指標(biāo)。
進(jìn)一步的研究探討了不同精度組合對訓(xùn)練效果的影響。結(jié)果顯示,將訓(xùn)練和推理精度統(tǒng)一為FP16的組合,不僅實(shí)現(xiàn)了最低的訓(xùn)練-推理不匹配,還獲得了最穩(wěn)定的訓(xùn)練動態(tài)和最高的性能,同時保持了極高的計算效率。相比之下,其他精度組合要么訓(xùn)練不穩(wěn)定,要么計算效率低下。
為證明FP16解決方案的普適性,研究團(tuán)隊(duì)在多種模型和訓(xùn)練范式上進(jìn)行了驗(yàn)證。在混合專家模型中,F(xiàn)P16精度下的訓(xùn)練比BF16更加穩(wěn)定,能夠持續(xù)獲得更高的訓(xùn)練獎勵和驗(yàn)證集性能。在低秩適應(yīng)微調(diào)中,基于FP16的訓(xùn)練從頭到尾保持完全穩(wěn)定,而基于BF16的訓(xùn)練則在約600步后崩潰。在大型稠密模型上,F(xiàn)P16訓(xùn)練的模型獎勵增長速度遠(yuǎn)快于BF16,并在驗(yàn)證集上取得了更高的準(zhǔn)確率。在不同模型架構(gòu)上的實(shí)驗(yàn)也得出一致結(jié)論:FP16能夠有效提升強(qiáng)化學(xué)習(xí)微調(diào)的穩(wěn)定性。
這些發(fā)現(xiàn)促使業(yè)界重新思考在大型語言模型訓(xùn)練流程中關(guān)于數(shù)值精度的選擇。研究結(jié)果表明,將浮點(diǎn)數(shù)精度從BF16切換到FP16,是一種能夠系統(tǒng)性提升強(qiáng)化學(xué)習(xí)微調(diào)穩(wěn)定性和性能的根本性解決方案。這一發(fā)現(xiàn)不僅解決了當(dāng)前強(qiáng)化學(xué)習(xí)微調(diào)領(lǐng)域的一個核心痛點(diǎn),也為未來模型訓(xùn)練提供了新的思路。










