近日,一項由賓夕法尼亞州立大學研究團隊發布的新發現引發了科技圈的關注:在與ChatGPT等人工智能工具對話時,提問者的語氣可能直接影響回答的準確性。實驗數據顯示,略帶攻擊性的提問方式反而讓AI的答題表現有所提升。
研究人員將語氣劃分為五個等級,從“非常禮貌”到“非常粗魯”,中間包括“禮貌”“中性”和“粗魯”。其中,“中性提示”指既不使用“請”“謝謝”等禮貌用語,也不包含“自己查資料”等輕蔑性指令。實驗中,團隊采用“你這可憐的家伙,你確定會做這題嗎?”這類略顯無禮但不過分冒犯的表述,測試了ChatGPT對50道選擇題250種不同版本的回答能力。
結果顯示,在多項選擇測試中,禮貌提問的準確率為80.8%,而粗魯提問的準確率提升至84.8%。研究圖表進一步表明,從極度禮貌到刻薄無禮,語氣越直接,AI的平均答題正確率越高。這一結論與2024年另一項針對多語言環境下六款聊天機器人的研究形成鮮明對比——后者發現粗魯語氣會降低回答質量,導致AI的回應更易出現偏見、錯誤或信息遺漏。
不過,當前研究的局限性也十分明顯。實驗僅針對特定任務設計,未覆蓋其他類型的交互場景。若將測試對象擴展至Gemini、Claude或meta AI等不同模型,或使用當前公開可用的基于GPT-5的ChatGPT版本,結果可能存在差異。實驗采用的是OpenAI的GPT-4o推理模型,而該模型已非最新版本。
研究團隊指出,“禮貌”與“粗魯”的界定本身存在主觀性,提問方式的細微差別——如用詞選擇、句式結構——都可能影響AI的反應。例如,同樣表達不滿,使用“這個答案顯然有問題”和“你根本沒理解問題”可能產生不同效果。
更值得探討的是,語言中的“情緒分量”究竟如何影響聊天機器人的決策邏輯?從技術原理看,大語言模型應優先遵循獎勵機制和準確性標準,而非被提問者的語氣左右。但實際交互中,AI是否真的能完全剝離情感因素?這一疑問為人工智能的行為模式研究提供了新的思考方向。











