復旦大學計算機科學與人工智能學院的研究團隊在機器人交互領域取得重大突破,開發出全球首個具備主動澄清能力的機器人系統。這項被命名為"Ask-to-Clarify"的創新框架,使機器人能夠像人類一樣通過對話消除指令歧義,相關研究成果已在國際知名預印本平臺arXiv發表。
傳統機器人系統在處理模糊指令時存在根本性缺陷。當用戶發出"把水果拿給我"這類指令時,現有機器人要么隨機選擇,要么因無法決策而停止工作。研究團隊通過深入分析發現,這種困境源于單向執行模式——機器人缺乏與人類的交互反饋機制,無法區分指令的明確程度,更無法主動尋求澄清。
新框架創造性地構建了雙組件協作體系。其中"合作模塊"基于先進視覺語言模型,負責理解場景、識別歧義并生成澄清問題;"行動模塊"采用擴散模型技術,專門處理精確動作指令的生成。兩個模塊通過獨特的"連接模塊"實現無縫銜接,該模塊能根據對話結果動態調整視覺關注重點,確保動作生成獲得最相關的信息。
系統工作流程模擬人類處理歧義的自然方式。當接收到模糊指令時,合作模塊首先分析場景,識別出指令中的不確定性,然后生成針對性問題。例如面對"把水果放到盤子上"的指令,系統會依次詢問:"是蘋果嗎?""是橙子嗎?"直到獲得明確答復。確認指令后,行動模塊立即生成精確的機械臂動作序列,完成端到端的任務執行。
訓練過程采用創新的"兩階段知識隔離"策略。第一階段專注訓練對話能力,系統通過海量歧義解決對話數據,掌握識別歧義、提出問題及推導正確指令的技能。第二階段凍結對話模塊,專門訓練動作生成能力,確保系統在保持溝通技能的同時獲得精確執行能力。這種分階段訓練有效避免了多任務學習的相互干擾。
研究團隊設計了包含8項真實場景任務的測試體系,涵蓋放置、傾倒、堆疊等家庭常見操作。測試結果顯示,新系統在所有任務中的表現均顯著優于現有最先進系統。在放置任務中成功率達95%,傾倒任務達98.3%,堆疊任務達90%。特別值得注意的是,這些測試均采用模糊指令,而對比系統則直接獲得明確指令,這種"不公平"對比更凸顯了新框架的優勢。
系統的環境適應性通過多項壓力測試得到驗證。在光線不足條件下,傳統系統成功率從57.5%驟降至22.5%,而新框架僅從90%降至80%。面對視覺干擾物時,新框架保持80%的成功率,遠超傳統系統的65%。這種魯棒性源于知識隔離訓練策略,使系統保留了通用的視覺理解能力。
技術實現的關鍵在于智能信號檢測系統。該系統通過分析合作模塊輸出的信號標記,自動判斷何時需要澄清、何時可以執行。當檢測到"指令模糊"信號時,系統進入對話模式;獲得"指令明確"信號后,立即提取準確指令并轉移控制權。這種無需額外訓練的判斷機制,確保了系統在不同模式間的無縫切換。
研究團隊深入分析了傳統系統失敗的原因。采用層次化架構的基準系統雖使用擴散模型,但因缺乏有效連接機制,導致不同指令產生的條件信號高度相似。例如面對"放蘋果""放桃子""放橙子"等指令時,生成的條件幾乎完全相同,自然無法正確執行。而新框架通過連接模塊的調節,能為每個任務生成獨特條件信號。
在"存在"與"缺失"場景測試中,系統展現出智能判斷能力。當目標物體在視野內時,系統通過對話確認后執行任務;當目標缺失時,系統會禮貌拒絕執行。這種判斷基于完整的對話歷史記錄,確保了交互的連貫性和邏輯性,避免了重復詢問或前后矛盾的問題。
這項突破為機器人技術發展開辟了新方向。它不再追求單純的任務執行精度,而是致力于構建更自然的人機協作關系。通過引入雙向交互機制,機器人從被動執行者轉變為能夠主動溝通的合作伙伴。這種轉變不僅提高了任務完成率,更重要的是改變了人們對機器人能力的認知。
研究團隊指出,當前系統在連接模塊方面仍有改進空間。目前采用的特征調制方法相對簡單,未來可探索更復雜的注意力機制或對比學習方法。這種開放的研究態度為后續技術發展預留了充足空間,也為機器人技術的評價標準提供了新維度——除了任務完成率,交互質量和澄清效率等指標同樣重要。
在實際應用層面,這項技術為家庭服務機器人的實用化掃清了關鍵障礙。具備澄清對話能力的機器人將更貼近人類交流習慣,用戶無需刻意使用精確語言,只需自然表達需求即可。這種改變將顯著提升用戶體驗,推動機器人技術在智能家居、醫療輔助、教育陪伴等領域的廣泛應用。










