在麻省理工學院生成式AI影響力聯盟的研討會上,meta首席AI科學家、紐約大學教授Yann LeCun再次拋出爭議性觀點。這位2018年圖靈獎得主重申,當前主流的大語言模型技術是"死胡同",并直言"這些系統永遠無法達到人類水平的智能"。與此同時,他對人形機器人領域的熱潮潑出冷水:"行業最大的秘密是,沒有公司真正知道如何讓機器人具備足夠的通用智能。"
回溯至1987年,當AI學術界沉迷于專家系統研究時,年輕的LeCun在巴黎完成了關于"連接主義學習模型"的博士論文。這項奠定神經網絡反向傳播算法基礎的研究,在當時顯得格格不入。"也許是因為天真或無知,"他回憶道,"本科時我就被自組織系統的概念吸引——自然界中的生命都具備適應能力,而擁有神經系統的生物都能學習。"這種信念支撐他在不受主流認可的領域堅持研究,直到遇見導師Maurice Milgram后正式開啟學術生涯。
2016年NeurIPS大會上,LeCun提出的"蛋糕理論"引發學界震動。他將人工智能體系比作三層蛋糕:自監督學習構成主體,監督學習是糖霜,強化學習僅作點綴。"當時DeepMind等機構全力投入強化學習,但我始終認為這種路徑效率低下。"他指出,強化學習需要海量試錯次數,而理想系統應通過觀察世界自主構建認知模型。這種理念在十年前就已萌芽,團隊嘗試用未標注數據訓練系統預測視頻內容,卻發現視頻預測的復雜性遠超文本處理。
"給會議室拍攝視頻并平移鏡頭后,系統根本無法預測每個人的長相或房間細節,"LeCun舉例說明,"有些信息本質上是不可預測的,強行要求系統完成這類預測只會扼殺其發展。"經過五年探索,團隊意識到必須突破傳統框架。2022年ChatGPT引發的技術革命中,meta推出的Llama模型雖取得商業成功,但LeCun強調自己未參與技術核心開發,稱其最初只是巴黎團隊的"海盜項目"。
面對行業巨頭今年在AI基礎設施上投入的3230億美元,LeCun用數據對比揭示現存局限:以Llama 3為例,其訓練使用的30萬億token總量,相當于人類閱讀40萬年才能完成的文本量。而四歲兒童在清醒的16000小時內,通過視神經接收的數據量就已達到同等規模。"這暴露出關鍵缺失——AI系統需要從視頻等高帶寬感官數據中學習,僅靠文本訓練永遠無法企及人類智能。"他直言,當前系統最多只能成為"反芻訓練內容的工具",連家貓的認知能力都難以超越。
在學界普遍追逐生成式模型的背景下,LeCun團隊過去五年專注開發JEPA架構。這種聯合嵌入預測架構通過編碼器將視頻轉化為表征空間,在保留可預測信息的同時消除不可預測細節。"關鍵在于誘導系統在表征中承載足夠信息,同時過濾無關細節。"他透露,meta實驗室的對比實驗顯示,非生成式架構在圖像任務上的表現已超越監督模型,這為自然感官數據處理提供了新范式。
具體應用方面,巴黎團隊開發的Dino系統已展現出通用視覺編碼器的潛力,被廣泛應用于醫學圖像、生物分析和天文學領域。更值得關注的是V-JEPA項目,研究者用相當于一個世紀的視頻量訓練系統,使其能識別視頻中的異常事件。"當物體突然消失或變形時,預測誤差會顯著上升,這是系統獲得常識的初步跡象。"在機器人領域,基于世界模型的系統已實現零樣本任務完成,無需針對特定場景進行強化學習訓練。
對于AI安全議題,LeCun提出與主流觀點截然不同的解決方案。他主張構建"目標驅動"的架構,通過硬編碼護欄確保系統行為可控。"就像為家用機器人設定底層規則:當周圍有人且手持刀具時,禁止揮動手臂。"他將這種設計類比于人類法律體系,"我們數千年來都在通過規則引導行為,設計安全護欄的難度并不超過制造噴氣式飛機。"
當被問及對年輕研究者的建議時,LeCun強調應關注具有持久價值的理論基礎。"在移動應用編程和量子力學之間,即使你是計算機專業學生,也應該選擇后者。"他解釋道,量子力學培養的路徑積分等抽象思維,對語音識別解碼等現實問題具有普適價值。"未來博士生將擁有AI虛擬助手團隊,人類需要提升認知層級,把底層工作交給機器。"












