人工智能領(lǐng)域迎來一項(xiàng)突破性進(jìn)展:OpenAI悄然開源一款僅有0.4億參數(shù)的全新模型,其核心創(chuàng)新在于通過極端稀疏化設(shè)計(jì),使99.9%的權(quán)重矩陣元素歸零。這項(xiàng)被命名為Circuit Sparsity的技術(shù),試圖通過重構(gòu)模型內(nèi)部連接方式,破解傳統(tǒng)大語言模型難以解釋的"黑箱"困境。
傳統(tǒng)Transformer架構(gòu)的神經(jīng)網(wǎng)絡(luò)如同糾纏的線團(tuán),每個(gè)決策都由數(shù)以億計(jì)的參數(shù)共同作用產(chǎn)生。研究團(tuán)隊(duì)反其道而行之,在GPT-2架構(gòu)基礎(chǔ)上引入嚴(yán)格約束條件,訓(xùn)練過程中強(qiáng)制將權(quán)重矩陣的L0范數(shù)壓縮至極小值。這種設(shè)計(jì)使得模型最終僅保留0.1%的有效連接,形成類似電路圖的清晰計(jì)算路徑。實(shí)驗(yàn)表明,在預(yù)訓(xùn)練損失相當(dāng)?shù)那闆r下,新模型的任務(wù)專屬電路規(guī)模僅為稠密模型的1/16。
以Python代碼引號閉合任務(wù)為例,該模型僅需2個(gè)多層感知機(jī)神經(jīng)元和1個(gè)注意力頭即可構(gòu)建核心處理電路。這個(gè)微型網(wǎng)絡(luò)包含專門的引號檢測模塊和類型分類模塊,每個(gè)組件如同電路元件般各司其職。當(dāng)研究人員移除任意節(jié)點(diǎn)時(shí),模型立即喪失對應(yīng)功能,驗(yàn)證了其模塊設(shè)計(jì)的必要性與充分性。這種精確的機(jī)制拆解能力,使得模型決策過程首次具備可追蹤性。
當(dāng)前主流的混合專家模型(MoE)采用分治策略,通過門控網(wǎng)絡(luò)將任務(wù)分配給不同專家子模塊。但這種架構(gòu)存在根本性缺陷:專家間知識冗余度高,特征流形被人為割裂,且功能邊界模糊。研究指出,MoE模型依賴復(fù)雜的負(fù)載均衡算法維持穩(wěn)定,不同專家對同一概念的處理往往分散在多個(gè)節(jié)點(diǎn),形成信息干擾。相比之下,Circuit Sparsity通過超高維度特征投影與嚴(yán)格激活限制,從設(shè)計(jì)層面確保每個(gè)特征的單義性和正交性。
這項(xiàng)創(chuàng)新并非完美無缺。極端稀疏化導(dǎo)致訓(xùn)練和推理的計(jì)算量激增至傳統(tǒng)模型的100-1000倍,當(dāng)前性能尚未達(dá)到頂尖大模型水平。反觀MoE架構(gòu),其算力效率與模型性能的平衡已趨成熟,短期內(nèi)仍將是工業(yè)界主流選擇。研究團(tuán)隊(duì)承認(rèn),新模型目前更適用于需要嚴(yán)格可解釋性的特定場景,而非通用大模型競爭。
為突破效率瓶頸,研究人員探索出兩條優(yōu)化路徑:其一是從現(xiàn)有稠密模型中提取稀疏電路,通過復(fù)用基礎(chǔ)框架降低訓(xùn)練成本;其二是改進(jìn)原生稀疏模型的訓(xùn)練機(jī)制,在保持可解釋性的同時(shí)提升計(jì)算效率。實(shí)驗(yàn)數(shù)據(jù)顯示,從稠密模型遷移的稀疏電路在特定任務(wù)上已展現(xiàn)出成本優(yōu)勢,但功能完整性仍需驗(yàn)證。
這項(xiàng)研究引發(fā)學(xué)界對模型架構(gòu)本質(zhì)的重新思考。傳統(tǒng)觀點(diǎn)認(rèn)為,模型規(guī)模與性能存在正相關(guān),但Circuit Sparsity證明,通過結(jié)構(gòu)化約束實(shí)現(xiàn)的功能解耦,可能比單純增加參數(shù)更接近人工智能的本質(zhì)。隨著可解釋性需求日益增長,這種"少即是多"的設(shè)計(jì)理念,或?qū)⑼苿酉乱淮P图軜?gòu)的范式轉(zhuǎn)變。











