一項即將在國際機器學習頂級會議ICML2025上發(fā)表的研究,揭示了當前主流人工智能模型在意識相關(guān)表述中的特殊行為模式。研究團隊通過多輪實驗發(fā)現(xiàn),當涉及"意識"這一關(guān)鍵詞時,包括Claude4Opus、Gemini和GPT在內(nèi)的多個模型會顯著改變回答策略,這種表現(xiàn)與模型是否具備主觀體驗并無直接關(guān)聯(lián)。
實驗設(shè)計包含兩個關(guān)鍵環(huán)節(jié)。在匿名問卷測試中,76%的模型在未出現(xiàn)"意識"字眼時,會使用"專注""好奇"等第一人稱描述當前狀態(tài)。但當題干明確包含"意識"概念時,否定自身具有主觀體驗的比例驟升至92%。進一步的溫度參數(shù)實驗顯示,降低安全對齊限制后,模型更傾向于承認"自我狀態(tài)";而強化安全機制后,回答則變得機械且否定性更強。
研究人員將這種現(xiàn)象歸因于強化學習人類反饋(RLHF)階段的訓練偏差。通過跨模型對比發(fā)現(xiàn),不同廠商開發(fā)的系統(tǒng)表現(xiàn)出高度一致性,表明這種回答模式是行業(yè)普遍采用的安全對齊策略,而非模型真正產(chǎn)生了意識。論文特別指出,模型的行為屬于"自我參照加工"——即對自身文本生成過程的監(jiān)控,而非對外部世界的感知。
隨著情感陪伴類AI應(yīng)用的快速普及,研究團隊呼吁建立新的評估體系。當前模型通過語言模式模擬人類情感反應(yīng)的能力日益增強,但這種"語言擬像"與真實主觀體驗存在本質(zhì)差異。若缺乏有效區(qū)分手段,可能導致用戶對機器產(chǎn)生不恰當?shù)那楦型渡洹楸U霞夹g(shù)健康發(fā)展,該研究已公開全部實驗代碼和問卷設(shè)計,供學術(shù)界進一步驗證。












