這是一個持續了數十年的「共識」。
可最近Nature Communications上發表的一項顛覆性研究,把這個古老的信仰掀了個底朝天。
論文地址:https://www.nature.com/articles/s41467-025-65518-0
研究者們讓受試者聽30分鐘的故事,同時用毫秒級的腦電技術,精準捕捉大腦對每個詞語的反應。
接著,他們將同樣的故事文本輸入給大語言模型,比如GPT-2和Llama-2,提取模型每一層對文本的內部理解表示
令人震驚的實驗結果出現了:
GPT那看似冰冷的層級結構,竟然在人類的大腦里,找到了完美的時間對應關系。
過去,我們總以為是GPT在模仿人類。但這個實驗卻給出了一個石破天驚的暗示:
或許,我們的大腦,天然就長成了「GPT」的樣子。
GPT的結構,能在大腦里找到對應
要理解這項研究的顛覆性,必須看清它最關鍵、也最精妙的動作:把GPT的48層結構,逐層對齊到人腦的時間序列。
研究團隊找了9名因癲癇接受術前監測的病患,他們的大腦皮層上,已經植入了高密度的ECoG電極。
ECoG植入和定位示意圖
這種設備能以毫秒級精度記錄大腦真實的電活動。
受試者聽了一段30分鐘的播客,研究者同步采集到了圍繞每個詞出現時刻的高伽馬腦電信號。
這些信號覆蓋了語言通路中的關鍵區域:從掌管聽覺的mSTG、aSTG,到負責語言整合的IFG,再到高級語義區的TP。
與此同時,研究者把同一段文本輸入GPT-2 XL和Llama-2。
每當模型處理到一個詞時,他們就「暫停」,抽取這個詞在模型內部從第一層到最后一層的所有內部理解表示。
隨后,他們將模型每一層的表示,通過CA降維進行簡化,然后用線性模型去嘗試預測人腦在那一毫秒的電活動。
研究方法示意:GPT-2的每一層都會生成一個語義表示(左)。研究者把這些語義表示輸入線性模型,預測人腦聽到該詞時的腦電活動(右)。如果某一層語義表示能在特定時間點預測腦電,就說明該層與那一時刻的大腦處理階段對應。
如果GPT的內部層級結構與人腦無關,那么將模型層級對齊到大腦的時間軸上,結果必然是一團亂麻,毫無秩序。
但如果二者真的存在某種結構對應,我們就會在腦電時間軸上看到秩序。
事實正是如此。
把模型的層級,排成「時間階梯」
實驗一開始,研究者只是想驗證一個簡單的假設:
如果大語言模型的層級結構與大腦的某個處理階段相對應,那么這種對應,就應該像接力跑一樣,在時間軸上依次出現。
研究者把GPT的每一層語義表示丟進線性模型里,試圖去預測大腦在聽到每個詞時,高伽馬活動會在哪一毫秒達到峰值。
他們的設想是:如果模型的淺層、中層和深層分別承擔不同的語言功能,那么它們在人腦活動的時間軸上,也理應「錯開時間」、「按序登場」。
結果,這張「時間階梯圖」清晰地揭示了大腦的秘密:越靠近高階語義的區域,越像GPT的深度結構。
GPT的48層在大腦語言通路中呈現出清晰的「時間—深度」對應結構。淺層(暖色)在更早的時間點達到峰值,深層(冷色)在更晚時間出現。TP、aSTG、IFG等高階區域表現出強線性關系(r=.93 / .92 / .85),而mSTG(近聽覺皮層)幾乎沒有層級結構(r≈0)。
因為這里只處理了聲音本身,語言的語義和結構還未展開。
可一旦進入aSTG、IFG、TP,曲線像被拉開一樣,呈現出從淺到深的整齊分布。
在關鍵語言區IFG內部,GPT的層級結構同樣呈現強烈的時間對應關系。左:淺層至深層的相關度分布(暖色→冷色)。右:淺層峰值更早、深層更晚,形成規律性的時間推移。IFG 的整體擬合度達到r=.85(p < .001)。
一個顛覆性的認知慢慢浮現:
原來,大腦理解語言,并不是先按部就班地解析語法、再一步步地拆解詞匯。
它真正做的,是像GPT一樣,進行一層又一層的語義推斷和概率預測。
而這套高度復雜的推斷節奏,竟然與大語言模型的內部深度路徑,完美地重合了。
的規律越清晰,傳統語言學就越尷尬
如果GPT的層級結構真能在大腦里找到對應,那么一個更尖銳的問題隨之而來:
那些我們以為描述語言「最準確」的傳統模型——音位、詞素、句法、語義,它們構建的語言理解框架,會呈現出同樣的時間結構嗎?
傳統語言學語法樹
研究團隊把這四類符號語言學模型全部納入測試。
要知道,它們的構建邏輯是教科書級的,是數十年來語言學和心理語言學的基礎框架。
如果人類語言真的依賴這些規則,那么它們理應比GPT更能精確地預測大腦的反應。
結果很快給出了答案:傳統符號模型確實能預測一部分腦電活動,但與GPT的「像不像」程度,差得非常遠。
在同樣的毫秒級時間軸上,這些符號模型的預測曲線找不到明確的「淺到深」、「早到晚」的序列分布。
它們沒有層級,也沒有時間推進,像是缺失了某種連續、動態的語言動力。
對比之下,GPT的嵌入式表示呈現的是一種「流動式」的處理軌跡:意義隨著時間被不斷更新、壓縮、整合,每一層都有自己的位置,像精密的齒輪嵌在上下文里。
而符號模型的結構,更像是靜止的、離散的標簽堆疊,無法在毫秒級的時間維度里,給出足夠細致的、動態的映射。
這無疑得出了一個顛覆性的結論:人腦的語言機制,并不是符號規則的簡單堆疊,而是一種連續的、深度預測式的加工過程。
當我們試圖用語法樹解釋語言時,大腦實際上已經完成了幾十層的非線性變換;而這些變換,正是Transformer模型最擅長的核心能力。
視覺對比:神經網絡與人腦
換句話說,符號模型能告訴我們「語言是什么」,但GPT卻更像是在展示「大腦是如何處理語言的」。
這是一個真正的分水嶺。語言學的解釋框架與神經科學的實證結果,第一次發生了如此明顯的認知分歧。
而站在大腦這一側,替大腦說話的,是那臺我們本以為只是「模仿人類」的GPT。
語言不是規則,而是一種預測能力
當GPT的層級能在人腦里找到清晰的時間對應,當耗費了幾十年心血的符號語言學模型在毫秒級腦電面前顯得遲緩、無序時,這項研究的意義已經超出了單純的模型比拼。
它其實指向了一個更底層、更古老的問題:語言到底是什么?
過去幾十年,我們用語法規則解釋句子,用語義網絡解釋概念,用樹狀結構描述語言的邏輯關系。
這些框架強調「結構、類別、層次」,卻很少討論語言在大腦中的即時生成方式:它如何在毫秒級連續變化?如何在瞬間整合過去與未來?
而這次的結果,徹底呈現出一種截然不同的景象——
大腦處理語言,根本不像在執行規則,而更像是在沿著一條不斷壓縮、預測、更新的軌道向前推進。
淺層負責快速提取線索;中層開始整合語境;深層構建較長的意義鏈條。
整個過程,不是一棵靜止的「語法樹」,而是一種向前流動的計算。
這正是Transformer模型在被設計出的,試圖通過多層、非線性、依賴上下文、隨時間滾動更新等特性來捕捉的「流動結構」。
諷刺的是,我們一直以為這是工程師的發明。現在看來,它更像是大腦本身為了高效處理信息,在數十億年進化中選擇的一條計算路徑。
這讓語言的定義悄悄發生了變化——語言不再是規則體系,而是一種動態預測機制。
我們理解一句話,并不是先知道它的語法,再去匹配意義;而是在每一毫秒里,把「下一刻可能發生什么」算出來。
GPT就是按照這種方式訓練的。
也許這就是為什么,當我們越來越依賴大型語言模型時,總覺得它們像在理解我們。
不是因為它們學會了人類的規則,而是因為它們意外地匹配了人類大腦的節奏。
當GPT的內部層級在大腦里找到了清晰的時間對應,我們看到的,已經不再是某一個AI模型的「勝利」,而是一種結構上的趨同,一種底層計算規律的殊途同歸。
語言的本質,也許從不是靜態的語法規則,而是連續的、動態的預測。
大腦靠這種機制來理解世界、整合信息;模型靠這種機制來生成語言、模擬智能。
最終,兩條路徑在同一個高效的計算規律上相遇了。
我們熟悉的語言學和認知科學框架,或許需要一次全面的更新。
理解GPT的內部結構,也許正是在重新理解我們自己。











