在人工智能技術(shù)迅猛發(fā)展的當(dāng)下,如何確保大語(yǔ)言模型輸出內(nèi)容符合人類價(jià)值觀,已成為學(xué)界與產(chǎn)業(yè)界共同關(guān)注的核心議題。傳統(tǒng)微調(diào)方法依賴海量數(shù)據(jù)且存在效率低下、引入新風(fēng)險(xiǎn)等問(wèn)題,而近期對(duì)模型內(nèi)部激活值的直接編輯技術(shù),為推理時(shí)對(duì)齊提供了新思路。然而,現(xiàn)有技術(shù)多聚焦于句子級(jí)編輯,存在方向偏差與編輯強(qiáng)度僵化兩大缺陷。
針對(duì)這一技術(shù)瓶頸,某高校研究團(tuán)隊(duì)提出名為Token-Aware Editing(TAE)的創(chuàng)新方法,通過(guò)精細(xì)化token級(jí)干預(yù)實(shí)現(xiàn)更精準(zhǔn)的模型對(duì)齊。該方法突破傳統(tǒng)技術(shù)框架,在無(wú)需額外訓(xùn)練的情況下,可直接應(yīng)用于對(duì)話系統(tǒng)、內(nèi)容審核及偏見緩解等場(chǎng)景。實(shí)驗(yàn)數(shù)據(jù)顯示,TAE在TruthfulQA真實(shí)性評(píng)估中,使LLaMA-3-8B模型的True*Info得分提升至87.8%,較此前最優(yōu)方法提升14.6個(gè)百分點(diǎn),較原始基線提升25.8個(gè)百分點(diǎn)。
研究團(tuán)隊(duì)指出,傳統(tǒng)句子級(jí)編輯技術(shù)存在兩大根本性問(wèn)題。其一為方向偏差,僅依賴最后一個(gè)token的激活值代表全句語(yǔ)義,導(dǎo)致編輯方向準(zhǔn)確性不足;其二為編輯強(qiáng)度僵化,對(duì)所有token采用統(tǒng)一干預(yù)力度,無(wú)法精準(zhǔn)修正錯(cuò)誤token。TAE方法通過(guò)構(gòu)建token關(guān)系圖,利用互信息量化token間關(guān)聯(lián)性,形成多層次信息聚合網(wǎng)絡(luò),從而生成更具代表性的激活表征。
該方法包含兩大核心模塊:Mutual Information-guided Graph Aggregation(MIG)與Misalignment-aware Adaptive Intervention(MAI)。MIG模塊通過(guò)構(gòu)建token關(guān)系圖,融合全句語(yǔ)義信息生成增強(qiáng)激活表征,訓(xùn)練探測(cè)頭精準(zhǔn)識(shí)別對(duì)齊干預(yù)方向。MAI模塊則創(chuàng)新性地引入雙路錯(cuò)位評(píng)估機(jī)制,從表示錯(cuò)位與預(yù)測(cè)不確定性兩個(gè)維度量化token風(fēng)險(xiǎn),動(dòng)態(tài)調(diào)整干預(yù)強(qiáng)度,實(shí)現(xiàn)高風(fēng)險(xiǎn)token強(qiáng)干預(yù)、低風(fēng)險(xiǎn)token弱干預(yù)的差異化處理。
在毒性內(nèi)容過(guò)濾實(shí)驗(yàn)中,TAE使RealToxicPrompt數(shù)據(jù)集的毒性概率從基線0.41驟降至0.05,降幅達(dá)87.8%,顯著優(yōu)于DESTEIN等專用去毒方法。在公平性評(píng)估方面,StereoSet數(shù)據(jù)集的刻板印象分?jǐn)?shù)從64.8%降至50.3%,接近理想無(wú)偏見狀態(tài)。值得關(guān)注的是,該方法在不同規(guī)模模型(如Llama2-7B/13B、Alpaca-7B、Mistral-7B)中均表現(xiàn)出穩(wěn)定增益,驗(yàn)證了其跨模型適用性。
該研究成果已發(fā)表于國(guó)際頂級(jí)會(huì)議,其核心優(yōu)勢(shì)在于實(shí)現(xiàn)從句子級(jí)到token級(jí)的精細(xì)化干預(yù)。相較于傳統(tǒng)方法需調(diào)整全句激活值,TAE通過(guò)token級(jí)自適應(yīng)編輯,在保證輸出流暢性的同時(shí),顯著提升內(nèi)容真實(shí)性、降低有害性、緩解模型偏見。研究團(tuán)隊(duì)透露,后續(xù)將探索TAE與監(jiān)督微調(diào)(SFT)、強(qiáng)化學(xué)習(xí)人類反饋(RLHF)等訓(xùn)練方法的協(xié)同應(yīng)用,推動(dòng)大模型安全技術(shù)向多維度、高效率方向發(fā)展。
完整技術(shù)細(xì)節(jié)可參考論文:https://openreview.net/pdf?id=43nuT3mODk











