一水 鷺羽 發自 凹非寺
量子位 | 公眾號 QbitAI
好一個一吐為快!
年底就要正式離開meta的LeCun,這下真是啥都不藏了。
不看好大語言模型能通往AGI,他就言辭犀利地指出:
通往超級智能之路——只需訓練大語言模型,用更多合成數據訓練,雇傭成千上萬的人在后訓練中“教育”你的系統,發明強化學習的新花招——我認為這完全是胡說八道。這根本行不通。
看不慣即將成為“前任”的meta的封閉作風,他也直言不諱:
meta正在變得更加封閉……FAIR被推動去從事一些比傳統上更偏向短期的項目。
而且還順帶劇透,自己將要創辦的新公司仍會繼續堅持開放。
以上內容來自LeCun最新參與的一檔播客節目。在接近兩小時的對談中,他主要回答了:
為什么硅谷對擴展語言模型的癡迷是一條死路?
為什么AI領域最難的問題是達到狗的智能水平,而非人類的智能水平?
為什么新公司選擇構建在抽象表示空間中進行預測的世界模型,而非直接生成像素的模型?
……
總結起來就是,不管是在meta接近12年的研究經歷,還是接下來要創辦的新公司,抑或是未來想要實現的AGI,通通都在這里了。
人生下一程:創辦新公司AMI
告別工作十二年的老東家,LeCun的下一步已然明了——創業。
做的還是之前在meta被打壓的世界模型。
LeCun透露,自己的公司名叫Advanced Machine Intelligence(AMI),將優先專注于世界模型的研究,而且開源……
這一招算是把和meta的矛盾擺在臺面上了。
畢竟眾所周知,自從亞歷山大王走馬上任,meta就開始急轉方向盤,從原來的開源先鋒變得越來越封閉。
LeCun更是直言不諱:
FAIR曾對AI研究生態產生了巨大影響,核心就在于高度開放的理念。但在過去幾年里,包括OpenAI、谷歌、meta都在變得封閉。
所以與其留在meta任人宰割,不如自己出來做喜歡的研究。
而且LeCun強調,如果不公開發表研究成果,就算不上真正的研究。故步自封,只會陷入自我欺騙,不讓學術界檢驗,就很可能只是一廂情愿的妄想。
他曾見過很多類似現象:內部對某個項目大肆吹捧,卻沒意識到其他人正在做的事情其實更優秀。
更何況meta現在只追求短期項目影響,實則難以做出有價值的貢獻,要突破就要公開發表成果,這是唯一的途徑。
所以新公司走的是一條和meta現在截然不同的路。
不止要做研究,還會推出圍繞世界模型、規劃能力的實際產品,AMI的終極目標是成為未來智能系統的主要供應商之一。
之所以選擇世界模型,是因為LeCun認為:
構建智能系統的正確打開方式就是世界模型。
這也是他多年來一直致力于研究的內容,在紐約大學和meta的多個項目中,已經取得了快速發展,現在也是時候將研究落地了。
至于他離職后,自己一手打造的FAIR會駛向何處?LeCun也透露了一二。
首先他表示,亞歷山大王不是他在meta的繼任者。
亞歷山大王的內部職責更偏向于整體運營管理,而非專門的科研人員,超級智能實驗室也由他領導,下設四個部門:
FAIR:專注于長期研究;
TBD實驗室:專注于前沿模型(主要是LLM);
AI基礎設計部門:負責軟件基礎設施;
產品部門:將前沿模型轉化為聊天機器人等實際產品,并集成到WhatsApp等平臺。
其中FAIR被交給了Rob Fergus領導,他也是LeCun在紐約大學的同事,目前FAIR內部減少了對論文發表的重視,更傾向于短期項目和為TBD實驗室的前沿模型提供支持。
而LeCun自己目前仍然是FAIR的AI科學家,不過任期只剩下最后三周。
LeCun的離開,標志著meta以FAIR為代表的、長達十年的“學院派”研究黃金時代的徹底結束,也標志著LeCun自己離開LLM轉投世界模型的決心。
那么問題來了,為什么LeCun認為世界模型正確、LLM錯誤呢?
要做的世界模型和LLM“根本不是一回事”
核心原因在于,LeCun認為它們本質上是為了解決不同的問題而生,二者“根本不是一回事”。
前者是為了處理高維、連續且嘈雜的數據模態(如圖像或視頻),這些構成了與現實世界進行感知和交互的基礎;
后者在處理離散、符號化的文本數據上表現出色,但不適合處理上述現實世界數據,LeCun對其評價為“完全糟糕”。
他還斷言,處理圖像視頻類數據“就不能使用生成模型”,尤其不能使用那種將數據tokenize化為離散符號的生成模型(而這正是大多數LLM的基礎)。
大量經驗證據表明,這根本行不通。
基于此,LeCun堅信僅靠訓練文本數據,AI永遠不可能達到人類智能水平。
他在對比了LLM訓練所需的海量文本數據(約30萬億tokens)與等量字節的視頻數據(約15000 小時)后發現:
15000小時的視頻信息量相當于一個4歲孩子一生中清醒時接收到的視覺信息總量,但這僅相當于YouTube半小時的上傳量,而且后者信息結構更為豐富、冗余度更高。
這表明,視頻這樣的真實世界數據,其內部結構比文本豐富得多。
正是因為深刻認識到“文本無法承載世界的全部結構與動態” ,LeCun將目光重新投向了一條更接近人類學習本質的路徑——讓機器像嬰兒一樣,通過觀察世界的連續變化,主動構建一個內在的、可預測的模型。
而這,就是LeCun眼中世界模型的畫像。
在他看來,世界模型的關鍵作用就是預測特定動作或一系列動作所導致的后果,其核心基石為預測和規劃。
預測:能夠基于當前狀態和潛在行動,推演出未來可能的狀態(或狀態的抽象表示);
規劃:以預測為基礎,通過搜索和優化,來確定實現預設目標的最佳行動序列。
至于怎樣才能算一個“好的”世界模型,LeCun反駁了需要完美模擬現實的觀點,強調了抽象的重要性*。
以前很多人認為世界模型必須是“重現世界所有細節的模擬器”,就像《星際迷航》中的全息甲板那樣。
但LeCun認為,這一想法是“錯誤且有害的”,實踐證明抽象有時候往往更有效。
所有科學和模擬都通過“發明抽象”來工作,例如計算流體力學忽略了分子等底層細節,只關注宏觀變量(如速度、密度、溫度),而這種抽象能夠帶來“更長期、更可靠的預測”。
因此,有效的方法是學習一個抽象的表示空間,它會“消除輸入中所有不可預測的細節,包括噪聲”。
由此他也總結道,世界模型不必是完全的模擬器,“它們是模擬器,但在抽象表示空間中”。
至于具體實現方式,他目前想到了通過聯合嵌入預測架構(JEPA)在這一抽象表示空間中進行預測。
而關于JEPA想法是如何誕生的?LeCun帶我們回顧了20年來“AI如何學習”的曲折發展史。
從無監督到JEPA
LeCun坦言,在長達近二十年的時間里,他一直堅信構建智能系統的正確路徑是某種形式的無監督學習。
這就和嬰兒看世界一樣,他們不是被“標注”后才認識世界的。同理,真正的智能也不可能依靠海量人工標注數據來構建。
因此,他一開始就將重點放在了無監督學習上,這種“讓機器自己從原始數據中發現規律”的設計完美契合了他的理念。
說干就干,他開始嘗試訓練自編碼器(Autoencoders)來學習表示。
其核心邏輯是:先壓縮,再還原。
比如將一張圖片(輸入數據)經由編碼器壓縮成一個緊湊的、低維的“摘要”(即表示或特征);然后將這個“摘要”經由解碼器重構,還原為一張與原始輸入盡可能相似的圖片。
一旦這個“摘要”能夠近乎完美地還原出原始輸入,那么合理推測它必然抓住了數據中最關鍵、最本質的信息。
因此,如果后續有其他任務用到這個“摘要”,其表現大概率也不錯。
然而,后來的研究讓LeCun意識到,“堅持表示必須包含所有輸入信息的直覺是錯誤的”。
因為他發現,AI在上述學習過程中存在“作弊”現象。
就像數學上的“恒等函數”所代表的含義——輸出只是輸入的另一種形式,AI根本不理解自己所學的內容,它們只是在“抄答案”。
而連理解都沒有,又何談真正的智能呢?
于是,LeCun接著引入了“信息瓶頸”(Information Bottleneck)這個核心思想來糾正方向。
其目的是限制表示的信息內容,從而迫使系統學習更精簡、更有用的表示,也即所謂的抽象能力。
后來他與多位學生在這一方向上做了大量工作,希望以此預訓練非常深的神經網絡。
然而,隨著深度學習迎來歷史轉折點——全監督學習開始崛起,有關無監督或自監督學習的研究一度被擱置。
當時的情況是這樣的。
在2010年代初期,研究者們面臨一個核心難題:理論上有強大表達能力的深度神經網絡,在實踐中卻極其難以訓練。 梯度不是消失就是爆炸,網絡深層的參數幾乎學不到東西。
而幾項簡潔卻革命性的工程改進,徹底改變了局面。
一個是ReLU(線性整流函數)的勝利。之前大家普遍使用Sigmoid或Tanh作為激活函數,它們的梯度在兩端會變得非常平緩(飽和區),導致反向傳播時梯度信號迅速衰減,無法有效更新深層權重。這就是“梯度消失”問題。
而ReLU的梯度在正區間恒為1,完美解決了梯度消失問題,計算速度也極快,幾乎憑一己之力讓訓練可以深入到數十甚至上百層。
另一個是歸一化(Normalization)開始發威。隨著網絡層數加深,每一層輸入的分布都會發生劇烈偏移,這迫使后續層需要不斷適應新的數據分布,大大拖慢了訓練速度,也使得學習率等超參數設置變得極其敏感。
而歸一化技術使得每一層的輸入進入激活函數前,強行將其歸一化到均值為0、方差為1的標準分布。這就像給每一層安裝了一個“自動穩壓器” ,確保了訓練流程的平穩。
正是這些改進的結合,使得研究者第一次能夠可靠、高效地訓練出非常深的神經網絡。
換言之,深度網絡的威力終于從理論照進了現實。
而且更幸運的是,技術的突破還遇上了數據的爆炸——包括李飛飛帶頭創建的ImageNet和一些大型文本語料庫等大規模高質量標注數據集,越來越多地被創建和公開。
在技術和數據的雙重紅利下, 監督學習在當時表現良好(比如大名鼎鼎的AlexNet引爆“深度學習革命”)。
直到2015年,LeCun開始再次思考如何推動人工智能達到人類水平。他觀察到,當時主流的強化學習方法在樣本效率方面極其低效,“無法實現目標”。
因此,他重新將研究重心轉向了世界模型和規劃,即一個能夠預測其行動后果并能進行規劃的系統。
他最初的設想很直接:要建立一個世界模型,那就讓它像物理模擬器一樣,預測下一幀畫面的每一個像素。
這一想法和當時主流的觀點不謀而合,但事實證明它錯了。
我起初和當時所有人的做法一樣,犯了試圖在像素級別預測視頻的錯誤,這實際上是不可能的,因為預測是非決定性的。
因為現實世界往往充滿隨機性。比如預測一杯水被打翻后,每一顆水珠的確切軌跡和形狀,是不可能的。未來有無限多種可能的像素級狀態。
如果強行訓練一個確定性模型來預測像素,它為了最小化誤差,通常會學會輸出一個所有可能未來的模糊平均。這就是為什么早期視頻預測模型生成的畫面總是模糊不清的原因——它不是預測,而是“和稀泥”。
而為了解決不確定性,LeCun最初嘗試了潛變量模型。這就像給模型一個“隨機數骰子”(潛變量),允許它根據骰子的不同結果,生成不同的未來畫面。
不過LeCun最終意識到,這本質上仍是在像素空間中工作,沒有觸及核心。
直到這時,主打“在抽象表示空間中進行預測”的JEPA架構終于應運而生。
其靈感源自LeCun在90年代研究的Siamese Networks,只不過一直面臨一個巨大的難題——防止系統崩潰(Collapse)。
在訓練過程中,模型可能將所有輸入映射到單一的點或低維空間,導致嵌入空間中的樣本不可區分,從而無法有效捕捉樣本間的語義差異。
為了解決這個問題,LeCun依次嘗試了對比學習、非對比學習的方法,最新進展就是LeJEPA技術。
LeJEPA核心提出了一種基于各向同性高斯嵌入的自監督學習方法,通過引入SIGReg正則化,有效解決了表示崩潰問題,并顯著提升了模型的泛化能力。
LeCun認為,“LeJEPA+SIGReg”是訓練模型學習抽象表示的“非常有前途的技術集合”,并預計未來一兩年內在這個領域將會有更多進展。
“LLM無法通往AGI,最難的是達到狗的智能水平”
基于上述,LeCun判斷,那些號稱一兩年就能實現AGI的人完全是癡心妄想。
因為現實世界遠比token化的文本復雜,僅靠現在的LLM路線不可能直接實現AGI。
更何況對于AGI這個概念,LeCun本身就覺得毫無意義。
AGI通用智能指的是人類水平的智能,但事實上人類智能是高度專業的,比如人類擅長處理現實世界的問題(導航、互動),但在棋類任務上表現差勁。
甚至在很多任務上,其實動物比人類更擅長,而人類之所以自詡為“通用”,只是因為人類自認為能處理所有可以想象到的問題,但很多想象之外的問題,人類其實無法做到。
所以與其討論人類水平的智能,不如討論機器是否可以在人類擅長的領域達到或超越人類。
毫無疑問,答案是肯定的。已經有機器在部分領域超越人類,但要說全部領域,則需要一個漸進的過程,而非突發事件。
可預見的是,在未來幾年,世界模型、規劃能力這方面或許能取得概念性突破,這將為實現人類水平的AI鋪平道路。
但這還遠遠不夠,還需要很多的基礎概念鋪墊,需要新的理論創新才能突破當前人類智能的瓶頸。
總的來說,人類智能距離人類還很遙遠。
而且并非大家所普遍認知的那樣:“人類智能難以實現,那么低一檔的狗級智能或許更容易實現”。
LeCun認為恰恰相反,實現人類智能的過程中,最難的反而是達到狗的智能水平。
能夠達到狗級智能,說明在研究人類智能上已經具備了大量的基礎理論,再從狗級智能到人類智能就容易得多。
因為靈長類動物和人類的差異,除了大腦尺寸的增長,關鍵在語言。語言其實是由大腦中很小的一塊區域(Wernicke區和Broca區)負責,而這些區域在不到100萬年(甚至200萬年)前才進化出,復雜性并沒有想象中那么高。
現在的LLM就可以很好地扮演這一區域的角色,將語言編碼為抽象表征,并將思想解碼為文本,而世界模型則相當于大腦的前額葉皮層,負責規劃和決策。
所以LeCun的觀點是,單靠LLM或者單靠世界模型是無法實現真正的人類智能的,這需要很多的相關研究支撐,也需要很多時間完成。
也正因為如此,老爺子LeCun說他還不能退休。
拒絕退休,人生目標是提升人類智能
事實上,今年LeCun就已經65歲了。
花甲之年、榮譽等身,LeCun的妻子也希望他退休回歸家庭,但LeCun如今還要大齡創業,據他所說,原因只有兩個字——“使命”。
大道至簡,LeCun的一生都在追求的,無非是提升人類的智能。
他說,智能是世界上最稀缺的資源,人類和地球的發展總是受到智能總量的限制,這也是為什么人類會前仆后繼地投入大量資源進行教育、發展機器。
所以回顧LeCun整個職業生涯的全部研究項目,都緊緊圍繞著“讓人類更聰明”這一核心目標:
作為教授,LeCun教書育人;作為機器智能的研究者,LeCun希望通過機器輔助人類提升智能;通過社交媒體發聲,公開傳播AI和科學知識,讓更多人了解相關領域……
LeCun表示:
為了這一目標,我愿意繼續做出貢獻。
不過他也坦然表示,這么多年的職業生涯里,他也有遺憾。
很多想要做的想法,都沒有足夠的時間去做,結果同行們比他搶先一步發表,典型的比如反向傳播算法 (backpropagation)。
他曾發表過一篇關于訓練多層網絡的目標傳播算法論文,那時他就衍生想到了反向傳播的核心思路,但受時間和精力限制沒能做成,后來David Rumelhart和Hinton發表了相關論文,并引用了LeCun的論文。
類似的事情還有很多,但LeCun并不后悔。
在他的視角里,一個好的想法的涌現往往是復雜的,很少有人能在完全孤立的情況下提出全新的想法。
這在科學界里再正常不過,所以不能只把功勞歸結于第一個產生想法的人,那些將想法落地的人同樣需要巨大的努力。
或許正因如此,他才始終堅持開源的技術路徑——在他看來,科學的進步從來都不是少數天才的靈光乍現,而是無數人思想在開放交流中的不斷疊加延伸。
因此再回頭看LeCun的離職,其實并不突兀。
當meta已經不再是那個鼓勵長期開放研究的“科學烏托邦”,LeCun的離開,幾乎成為一種必然。










