meta FAIR部門研究員Fran?ois Fleuret近期提出一項名為《The Free Transformer》的創新研究,對傳統解碼器Transformer模型進行了突破性改進。該技術通過引入隱性決策機制,使模型在生成文本前能預先規劃全局結構,有效解決了傳統自回歸模型存在的效率瓶頸。
傳統解碼器Transformer(如GPT系列)采用逐字生成方式,每個新詞都嚴格依賴已生成的文本序列。以電影評論寫作為例,模型需在生成過程中逐步推斷評論情感傾向,這種"邊寫邊想"的模式導致兩個核心問題:其一,模型需要龐大參數量才能從零散詞匯中反推全局意圖;其二,早期生成的偏差詞匯可能引發連鎖錯誤,導致整體內容偏離主題。更關鍵的是,情感傾向等核心概念僅作為訓練數據的被動映射存在,面對未見過的數據分布時容易失效。
Free Transformer的核心創新在于構建內部決策層。該模型在生成序列前,會先通過變分自編碼器(VAE)框架生成隨機潛變量Z,這個包含全局信息的變量將指導整個生成過程。以評論寫作為例,模型可預先決定生成正面或負面評論,再基于這個決策生成具體內容。這種"先規劃后執行"的模式,使模型擺脫了對局部詞匯的依賴。
技術實現上,研究團隊在標準Transformer中間層注入隨機噪聲Z,并復用前半部分網絡層作為編碼器,僅新增非因果Transformer塊和兩個線性層。這種設計使額外計算開銷控制在3%左右,卻能帶來顯著性能提升。非因果結構使編碼器能同時觀察整個輸入序列,有效捕捉全局特征。
在合成數據集實驗中,研究人員設計了包含目標字母定位和噪聲模式的測試場景。當控制潛變量Z的信息容量時,模型展現出驚人的學習能力:在適度約束下,所有生成序列不僅目標字母位置一致,連隨機噪聲的出現模式都完全相同。這直接證明了模型能自主提取關鍵全局信息并編碼到Z中。過度約束時出現的序列復制現象,則驗證了信息容量控制機制的有效性。
真實場景測試中,15億和80億參數規模的Free Transformer在代碼生成(Humaneval+、MBPP)和數學推理(GSM8K)任務上均取得顯著提升。特別在80億參數模型中,每個token引入半比特潛變量信息時,性能提升最為明顯。萬億級token訓練實驗進一步證實,該架構在長期訓練過程中始終保持優勢,推理和數學任務的平均性能穩定超越基線模型。
這項改進與思維鏈(Chain-of-Thought)技術形成互補:后者通過顯式文本進行逐步推理,而Free Transformer則在潛在空間實現隱式規劃。研究團隊指出,當前訓練過程仍存在不穩定性,可能源于編碼器-解碼器聯合優化的耦合效應。未來工作將探索解耦優化策略和多樣化潛變量嵌入形式,同時計劃在更大規模模型中驗證技術有效性。
該研究通過微小架構調整實現性能飛躍,證明即使成熟如Transformer的模型,其自回歸機制仍有優化空間。這種讓AI從"被動生成"轉向"主動規劃"的技術路徑,為開發更具思考能力的生成模型提供了新方向。











