當(dāng)Physical Intelligence在2024年底發(fā)布機(jī)器人基礎(chǔ)模型π0時(shí),其團(tuán)隊(duì)曾將這款產(chǎn)品類比為“機(jī)器人領(lǐng)域的GPT-1”。這一表述背后蘊(yùn)含著對(duì)技術(shù)演進(jìn)路徑的期待——如同OpenAI通過語言模型開啟自然語言處理新紀(jì)元,機(jī)器人智能或許也能通過擴(kuò)大模型規(guī)模與數(shù)據(jù)量實(shí)現(xiàn)質(zhì)的飛躍。然而彼時(shí),機(jī)器人領(lǐng)域的“擴(kuò)展定律”(Scaling Law)尚未得到系統(tǒng)性驗(yàn)證,更多停留在理論設(shè)想階段。
2025年11月4日,由前Google DeepMind高級(jí)研究員Pete Florence創(chuàng)立的Generalist AI公司,通過發(fā)布GEN-0模型為這一領(lǐng)域提供了關(guān)鍵性突破。該研究不僅證實(shí)了機(jī)器人基礎(chǔ)模型存在可量化的擴(kuò)展關(guān)系,更首次在物理智能訓(xùn)練中觀測(cè)到語言模型領(lǐng)域特有的“模型僵化”(ossification)現(xiàn)象。這一發(fā)現(xiàn)表明,機(jī)器人智能的發(fā)展遵循著比預(yù)期更復(fù)雜的規(guī)律,但其核心仍可通過數(shù)據(jù)與算力的規(guī)模效應(yīng)進(jìn)行預(yù)測(cè)。
在計(jì)算機(jī)視覺與自然語言處理領(lǐng)域,擴(kuò)展定律已被廣泛接受,但機(jī)器人領(lǐng)域始終缺乏實(shí)證支持。主要障礙在于高質(zhì)量數(shù)據(jù)的稀缺性與模型規(guī)模的局限性。盡管MIT與慕尼黑工業(yè)大學(xué)在2024年通過元分析發(fā)現(xiàn)機(jī)器人模型存在擴(kuò)展趨勢(shì),但相關(guān)研究仍基于較小規(guī)模的參數(shù)(億級(jí))與數(shù)據(jù)集(萬小時(shí)級(jí))。當(dāng)研究團(tuán)隊(duì)將模型參數(shù)擴(kuò)展至70億、訓(xùn)練數(shù)據(jù)推向27萬小時(shí)的真實(shí)操作軌跡時(shí),意外發(fā)現(xiàn)了物理智能的“相變點(diǎn)”。
實(shí)驗(yàn)數(shù)據(jù)顯示,10億參數(shù)的模型在訓(xùn)練過程中迅速出現(xiàn)僵化現(xiàn)象,表現(xiàn)為模型權(quán)重?zé)o法吸收新信息,訓(xùn)練損失停止下降。這種現(xiàn)象此前僅在百萬級(jí)參數(shù)的語言模型中觀察到,且規(guī)模遠(yuǎn)小于當(dāng)前實(shí)驗(yàn)。而當(dāng)模型參數(shù)達(dá)到60億時(shí),僵化現(xiàn)象消失,模型展現(xiàn)出強(qiáng)大的多任務(wù)學(xué)習(xí)能力。70億參數(shù)以上的模型不僅能內(nèi)化大規(guī)模預(yù)訓(xùn)練數(shù)據(jù),更可通過少量后訓(xùn)練(幾千步)快速適應(yīng)新任務(wù)。目前,GEN-0已擴(kuò)展至100億參數(shù)規(guī)模,其適應(yīng)新任務(wù)的速度與后訓(xùn)練需求呈反比增長(zhǎng)。
這一發(fā)現(xiàn)與人工智能領(lǐng)域的“莫拉維克悖論”(Moravec's Paradox)形成呼應(yīng)。該悖論由機(jī)器人學(xué)家Hans Moravec在1988年提出,指出人類認(rèn)為簡(jiǎn)單的感知與靈巧操作(如抓取物體),對(duì)機(jī)器而言需要極高的計(jì)算復(fù)雜度;而人類認(rèn)為困難的抽象推理(如數(shù)學(xué)計(jì)算),機(jī)器反而能更高效完成。GEN-0的實(shí)驗(yàn)為悖論提供了定量證據(jù):物理世界的常識(shí)(physical commonsense)存在更高的“激活閾值”,需要更大規(guī)模的計(jì)算資源才能涌現(xiàn)。
從工程實(shí)踐角度看,這種可預(yù)測(cè)的擴(kuò)展關(guān)系具有重大價(jià)值。研究團(tuán)隊(duì)通過冪律公式建立了模型規(guī)模、預(yù)訓(xùn)練數(shù)據(jù)量與下游任務(wù)性能的量化關(guān)系。以服裝處理任務(wù)為例,他們可精確估算需要多少預(yù)訓(xùn)練數(shù)據(jù)才能將動(dòng)作預(yù)測(cè)誤差降至特定閾值。這種預(yù)測(cè)能力使資源分配從“賭博式探索”轉(zhuǎn)變?yōu)椤邦A(yù)期性投資”,顯著提升了研發(fā)效率。
在訓(xùn)練機(jī)制層面,GEN-0引入了名為“諧波推理”(Harmonic Reasoning)的創(chuàng)新框架。傳統(tǒng)機(jī)器人系統(tǒng)常采用“快速反應(yīng)系統(tǒng)(System 1)”與“慢速規(guī)劃系統(tǒng)(System 2)”的分離架構(gòu),前者處理即時(shí)響應(yīng),后者負(fù)責(zé)長(zhǎng)期決策。但這種設(shè)計(jì)導(dǎo)致接口復(fù)雜、靈活性受限。諧波推理則將感知、思考與行動(dòng)視為連續(xù)時(shí)間軸上的異步token流,通過訓(xùn)練模型協(xié)調(diào)三者間的相互作用。
具體而言,模型在處理視覺輸入時(shí),可同時(shí)生成“內(nèi)部推理”token(不直接轉(zhuǎn)化為動(dòng)作,但影響后續(xù)決策)與“動(dòng)作控制”token(直接操控機(jī)器人關(guān)節(jié))。這種設(shè)計(jì)使模型能在執(zhí)行當(dāng)前動(dòng)作的同時(shí)規(guī)劃未來步驟。在組裝相機(jī)套件的演示中,機(jī)器人需完成將清潔布放入盒子、折疊紙板托盤、取出相機(jī)、合上盒蓋并插入固定卡扣等系列精細(xì)操作,全程無需顯式子任務(wù)分解,而是通過統(tǒng)一推理流完成。
數(shù)據(jù)規(guī)模與質(zhì)量是GEN-0的另一大突破。該模型在27萬小時(shí)的真實(shí)世界操作軌跡上進(jìn)行預(yù)訓(xùn)練,數(shù)據(jù)收集自全球數(shù)千個(gè)家庭、倉(cāng)庫(kù)與工作場(chǎng)所,規(guī)模比公開的最大機(jī)器人數(shù)據(jù)集大幾個(gè)數(shù)量級(jí)。為實(shí)現(xiàn)這一目標(biāo),Generalist AI部署了數(shù)千個(gè)數(shù)據(jù)收集設(shè)備與機(jī)器人,通過專用網(wǎng)絡(luò)線路支持高帶寬數(shù)據(jù)上傳,并動(dòng)用數(shù)萬個(gè)核心進(jìn)行多模態(tài)數(shù)據(jù)處理,每日可消化相當(dāng)于6.85年的真實(shí)操作經(jīng)驗(yàn)。
數(shù)據(jù)多樣性同樣經(jīng)過精心設(shè)計(jì)。研究團(tuán)隊(duì)將數(shù)據(jù)分為三類:針對(duì)特定任務(wù)的演示數(shù)據(jù)(Class 1)、開放式操作數(shù)據(jù)(Class 3)與介于兩者之間的中間數(shù)據(jù)(Class 2)。消融實(shí)驗(yàn)顯示,不同數(shù)據(jù)混合會(huì)導(dǎo)致模型特性差異。例如,某些數(shù)據(jù)配置訓(xùn)練的模型在預(yù)測(cè)誤差與反向KL散度上表現(xiàn)優(yōu)異,更適合監(jiān)督微調(diào);另一些配置雖預(yù)測(cè)誤差較高,但輸出分布多模態(tài)性更強(qiáng),對(duì)強(qiáng)化學(xué)習(xí)后訓(xùn)練更有利。這些發(fā)現(xiàn)為數(shù)據(jù)收集策略提供了直接指導(dǎo)。
Generalist AI的創(chuàng)始團(tuán)隊(duì)由三位資深研究員組成:Pete Florence在麻省理工學(xué)院期間專注于視覺引導(dǎo)操作,提出Dense Object Nets等開創(chuàng)性工作;加入Google后,他參與RT-2、PaLM-E等項(xiàng)目,探索大模型與機(jī)器人的融合。Andy Zeng從機(jī)器人抓取研究起步,其代表作TossingBot曾獲RSS 2019最佳系統(tǒng)論文獎(jiǎng)提名,在Google期間與Pete合作發(fā)表超17篇論文。Andrew Barry則帶來硬件與系統(tǒng)集成經(jīng)驗(yàn),曾在MIT研究高速自主無人機(jī)導(dǎo)航,后參與波士頓動(dòng)力Spot機(jī)器狗的機(jī)械臂項(xiàng)目研發(fā)。
三人認(rèn)為,創(chuàng)造通用機(jī)器人的關(guān)鍵在于重新聚焦數(shù)據(jù)、模型與硬件的交匯點(diǎn)。他們指出,僅依賴互聯(lián)網(wǎng)數(shù)據(jù)無法構(gòu)建能與物理世界交互的智能層,必須通過真實(shí)操作數(shù)據(jù)訓(xùn)練模型。這一共識(shí)促使他們成立Generalist AI,目標(biāo)直指“讓通用機(jī)器人成為現(xiàn)實(shí)”。
盡管GEN-0展示了機(jī)器人智能的擴(kuò)展?jié)摿Γ芯咳源嬖谖唇庵i。目前,模型架構(gòu)細(xì)節(jié)、訓(xùn)練算法與代碼尚未公開,諧波推理的具體實(shí)現(xiàn)方式也未披露。數(shù)據(jù)收集方法、質(zhì)量控制流程與標(biāo)注策略等關(guān)鍵信息同樣缺失。雖展示了部分演示視頻,但缺乏系統(tǒng)成功率統(tǒng)計(jì)與對(duì)比數(shù)據(jù),難以全面評(píng)估模型性能。盡管如此,GEN-0已證明通過擴(kuò)大模型規(guī)模與高質(zhì)量物理數(shù)據(jù),機(jī)器人智能可遵循獨(dú)特但類似語言模型的發(fā)展軌跡,為通用機(jī)器人的實(shí)現(xiàn)奠定了基礎(chǔ)。











