在第八屆虹橋國際經(jīng)濟論壇“人形機器人創(chuàng)新發(fā)展合作”分論壇上,宇樹科技創(chuàng)始人兼CEO王興興圍繞具身智能與機器人大模型的發(fā)展前景發(fā)表了深度見解。他通過對比技術(shù)演進路徑指出,當前機器人大模型所處的階段,類似于ChatGPT問世前1至3年的探索期——行業(yè)已明確技術(shù)方向,但距離突破性應用仍存在顯著瓶頸。
王興興分析稱,盡管生成式AI在語言理解和視覺識別領(lǐng)域取得顯著突破,但機器人實現(xiàn)“具身智能”仍面臨多重挑戰(zhàn)。他強調(diào),真正的具身智能需要機器人在物理世界中具備感知環(huán)境、精準運動控制以及理解人類交互意圖的綜合能力,這涉及機械設(shè)計、傳感器技術(shù)、算法優(yōu)化等多維度的系統(tǒng)創(chuàng)新。
對于“具身智能的ChatGPT時刻”判定標準,王興興提出明確量化指標:當機器人能在未經(jīng)過訓練的陌生場景中,僅通過語音或文字指令完成80%以上的任務(wù)時,方可視為技術(shù)成熟的關(guān)鍵節(jié)點。他以家庭服務(wù)場景為例說明,機器人需同時理解“把水果從廚房拿到客廳”這類指令背后的空間關(guān)系、物體識別和路徑規(guī)劃需求。
在技術(shù)實現(xiàn)路徑上,王興興特別指出,單純依賴大模型的推理生成能力遠不足以支撐具身智能發(fā)展。他提出三大核心支撐要素:構(gòu)建高精度的物理世界數(shù)字模型、建立實時數(shù)據(jù)反饋閉環(huán)系統(tǒng),以及開發(fā)能夠動態(tài)調(diào)整策略的強化學習框架。這些要素共同構(gòu)成機器人適應復雜環(huán)境的“認知-行動”循環(huán)機制。
針對行業(yè)普遍關(guān)注的落地周期問題,王興興坦言技術(shù)突破需要跨學科協(xié)同創(chuàng)新。他透露,宇樹科技正在研發(fā)具備多模態(tài)感知能力的下一代機器人平臺,通過融合視覺、觸覺、力覺傳感器,結(jié)合動態(tài)環(huán)境建模算法,嘗試突破現(xiàn)有運動控制與場景理解的局限。






