在人工智能領(lǐng)域,一場(chǎng)從數(shù)字世界向物理世界的躍遷正在悄然發(fā)生。十一年前,王曉剛與湯曉鷗共同推動(dòng)計(jì)算機(jī)視覺識(shí)別率首次超越人類肉眼,開啟了人工智能1.0時(shí)代。如今,當(dāng)行業(yè)沉浸在大語言模型的狂歡中時(shí),王曉剛卻將目光投向了更具挑戰(zhàn)性的領(lǐng)域——具身智能。他直言:“現(xiàn)有研究范式已陷入瓶頸,唯有以人類行為為核心重構(gòu)物理規(guī)律,才能叩開AI 3.0的大門。”
2025年被視為具身智能發(fā)展的關(guān)鍵節(jié)點(diǎn)。王曉剛指出,當(dāng)前大語言模型依賴的互聯(lián)網(wǎng)語料正面臨枯竭危機(jī),純粹的數(shù)字世界探索已觸及天花板。具身智能通過與物理世界的交互產(chǎn)生新智能,成為突破這一困境的核心路徑。然而,現(xiàn)實(shí)中的機(jī)器人仍難以走出實(shí)驗(yàn)室:在復(fù)雜環(huán)境中,它們因缺乏常識(shí)而屢屢受挫,演示中的“高光時(shí)刻”難以轉(zhuǎn)化為實(shí)際場(chǎng)景中的穩(wěn)定表現(xiàn)。
面對(duì)這一困境,王曉剛提出“以人為中心”的新研究范式。他回憶道,2025年初,團(tuán)隊(duì)在南洋理工大學(xué)劉子緯教授帶領(lǐng)下,開創(chuàng)了“環(huán)境式采集”技術(shù)。通過第一視角攝像頭、穿戴式傳感器及全景相機(jī),記錄人類在真實(shí)生產(chǎn)生活中的行為數(shù)據(jù)。這種模式不僅將數(shù)據(jù)量級(jí)從十萬小時(shí)提升至千萬小時(shí),更解決了數(shù)據(jù)采集效率低、場(chǎng)景單一的問題。例如,在杭州某前置倉試點(diǎn)中,工作人員佩戴設(shè)備工作10小時(shí)即可采集同等時(shí)長數(shù)據(jù),且覆蓋上萬種商品,效率較傳統(tǒng)遙操作提升百倍。
在商業(yè)化落地層面,大曉機(jī)器人選擇了軟硬協(xié)同的垂直整合路徑。其推出的“具身超級(jí)大腦模組A1”已應(yīng)用于四足機(jī)器人,實(shí)現(xiàn)戶外自主導(dǎo)航與語音任務(wù)執(zhí)行。通過與商湯方舟平臺(tái)打通,機(jī)器人可直接調(diào)用150余種AI應(yīng)用,價(jià)值鏈條得以延伸。王曉剛透露,未來三年將聚焦三大場(chǎng)景:短期以電力巡檢、文旅等戶外場(chǎng)景為主,中期攻克前置倉分揀難題,長期目標(biāo)則是家庭服務(wù)機(jī)器人。
值得關(guān)注的是,大曉機(jī)器人選擇在此時(shí)開源“開悟3.0”模型及工具鏈,并完成與沐曦、海光等國產(chǎn)芯片的深度適配。王曉剛解釋,開源不僅能快速建立生態(tài)優(yōu)勢(shì),更可通過云服務(wù)部署實(shí)現(xiàn)商業(yè)閉環(huán)。他以DeepSeek為例,強(qiáng)調(diào)先發(fā)優(yōu)勢(shì)的重要性:“當(dāng)高質(zhì)量開源項(xiàng)目形成聚集效應(yīng),芯片廠商會(huì)主動(dòng)適配,生態(tài)壁壘自然形成。”
談及公司命名,王曉剛笑稱“大曉”源于他與首席科學(xué)家陶大程的師兄弟情誼,但更深層的含義藏在發(fā)布會(huì)主題中——“大千世界,曉識(shí)萬象”。這八個(gè)字,既是對(duì)世界模型理解物理世界的期許,也是對(duì)環(huán)境式采集感知交互規(guī)律的詮釋。在這場(chǎng)從數(shù)字到物理的躍遷中,王曉剛正帶領(lǐng)團(tuán)隊(duì)書寫新的規(guī)則。










