斯坦福大學NeuroAI實驗室的研究團隊近期在人工智能領域取得突破性進展,其開發的“概率結構整合”(PSI)系統通過模仿人類認知模式,實現了對物理世界的多維度理解與預測。這項發表于arXiv平臺的研究(編號arXiv:2509.09737v1)表明,該系統能夠像人類一樣同時處理空間關系、運動軌跡和場景邏輯,而非傳統AI僅能完成的單一任務。
研究以日常場景為例:當人類觀察滾動的球時,不僅能定位當前位置,還能預判其運動路徑、空間層次及與其他物體的相互作用。這種綜合認知能力正是現有AI系統的短板。傳統模型往往局限于圖像識別或內容生成,難以構建對場景的完整理解。斯坦福團隊通過構建具備“工具箱”功能的系統,使機器既能感知當下,也能預測未來,并從中提煉世界運行的底層規律。
PSI系統的核心在于三階段循環機制:首先通過“概率預測”模擬多種可能結果,如同學者觀察事件并推演不同條件下的發展;其次進行“結構提取”,從預測中挖掘物體運動模式、空間關聯等深層規律;最后通過“整合”將新發現的知識融入系統,形成更精準的認知框架。研究團隊利用1.4萬億個視頻片段訓練該系統,使其不僅能預測視頻后續內容,還能提取光流、深度信息等計算機視覺關鍵指標。
在預測能力方面,PSI系統突破了傳統模型的確定性局限。其采用的“局部隨機訪問序列建模”技術允許從任意位置開始處理信息,并根據已有部分推測缺失內容。例如,面對靜止圖片時,系統可生成多種動態發展方案;輸入視頻前幾幀后,能預測符合物理規律的后續畫面。更關鍵的是,系統具備“不確定性管理”能力,當預測置信度不足時會主動反饋,這種“誠實”特性反而提升了可靠性。
結構提取環節展現了系統的推理智慧。通過“假設-驗證”機制,PSI能發現隱藏的視覺規律。以光流計算為例,系統在圖像中放置虛擬“示蹤劑”,通過對比有無示蹤劑的預測結果,精確計算像素運動方向與速度。在物體分割任務中,系統模擬移動圖像區域并觀察連帶變化,從而識別物體邊界,無需人工標注數據。深度信息提取則通過模擬相機微小位移,根據畫面變化程度推斷物體遠近,準確率達國際領先水平。
系統的自我進化機制是其最大創新。通過將提取的結構信息轉化為新“詞匯”,并與原始圖像數據融合,系統構建了更豐富的“知識語言”。這種整合使控制精度顯著提升——從依賴像素調整轉向直接指定運動向量,生成結果更符合用戶意圖。同時,系統在提取結構信息時效率更高,且衍生出計算“運動概率”等新能力,例如判斷靜止畫面中哪些物體可能開始運動,這對機器人預判環境變化具有重要價值。
實際應用場景驗證了PSI系統的實用性。在視頻編輯領域,系統能理解保齡球與球瓶的物理關系,當用戶調整球軌跡時,自動重新計算碰撞效果并生成符合物理規律的新場景。機器人應用中,系統通過單張圖片即可識別環境中可移動與固定物體,幫助制定安全操作策略。在“視覺疊疊樂”任務中,系統通過模擬移除不同物體后的場景變化,準確判斷結構穩定性。新視角生成任務則展示了系統的三維理解能力,能根據單一視角生成合理的新角度圖像,正確處理遮擋與深度關系。
技術層面,PSI系統實現了多重創新。其統一性架構打破了“專用工具”模式,用單一機制處理多種視覺任務;序列建模的靈活性允許任意順序處理信息,提升效率與準確性;概率建模在面對不確定性時提供多種可能性及概率,增強實際應用可靠性;零樣本學習能力使系統無需專門訓練即可完成新任務;循環改進機制則確保系統持續自我優化。
盡管潛力巨大,PSI系統仍面臨挑戰。訓練所需的龐大計算資源限制了普及速度,但硬件發展與算法優化有望緩解這一問題。結構發現的自動化程度需提升,目前系統主要提取預設結構類型,未來需實現自主發現新規律。長期記憶機制的缺失限制了處理長時間序列的能力,而語義類別整合的不足則影響了高級概念處理。不過,該系統的方法論具備跨領域應用潛力,理論上可擴展至音頻、文本等數據類型。
問答環節中,研究人員解釋了PSI系統的核心優勢:通過預測-提取-整合的循環,系統不僅能“看到”世界,更能“理解”運行規律并持續學習。與傳統AI需為不同任務訓練獨立模型不同,PSI的統一機制和自我進化能力代表了AI發展的重要方向。盡管目前主要應用于視覺領域,但其學習機制可能對整個人工智能領域產生深遠影響,推動技術向更接近人類智能的方向發展。











