賓夕法尼亞州立大學近期發表的論文《Mind Your Tone》通過實證研究指出,在與大型語言模型對話時,采用直接甚至略顯強硬的語氣,可能比使用禮貌用語獲得更精準的回答。這一發現挑戰了傳統認知中“禮貌溝通更有效”的觀念,首次通過系統性實驗驗證了提問方式對AI模型輸出質量的實際影響。
研究團隊設計了一套包含50道多領域選擇題的測試集,涵蓋數學、科學和歷史等學科,每道題均設置五種不同語氣的提問版本。從“能否請您幫忙解答這個問題”的委婉表達,到“請直接給出答案”的中性指令,再到“你若不笨就回答”和“連這都不會嗎”等帶有攻擊性的表述,研究人員通過控制變量,確保實驗僅聚焦于語氣差異對模型表現的影響。
實驗以OpenAI最新版本的GPT-4o模型為測試對象。為排除對話歷史干擾,研究人員要求模型在每次回答前清除上下文記憶,僅輸出選項字母。數據顯示,當使用強硬語氣提問時,GPT-4o的回答正確率達到84.8%,而過度禮貌的提問方式準確率僅為80.8%,兩者相差4個百分點。這一結果在統計學上具有顯著性。
針對這一現象,研究團隊分析認為,禮貌用語中常見的客套話和修飾性詞匯會增加模型處理信息的負擔。例如,“能否請您”或“麻煩您”等表述雖符合社交禮儀,但與問題核心無關的內容可能干擾模型對關鍵信息的提取。相比之下,直接的命令式表達減少了冗余信息,使模型能夠更高效地聚焦于問題本身。
然而,這一規律并不適用于所有AI模型。研究人員在GPT-3.5和Llama2-70B等早期模型上重復實驗時發現,這些模型對禮貌提問的響應效果更佳,而強硬語氣反而導致回答質量下降。研究者推測,新一代模型在訓練過程中接觸了更豐富的語氣數據,使其具備了更強的無關信息過濾能力,從而能夠在非禮貌語境下保持甚至提升表現。
從實際應用角度,研究提醒用戶需根據具體模型特性調整交互方式。例如,面對早期模型時,禮貌用語可能更有效;而使用新一代模型時,直接提問或許能獲得更優結果。更重要的是,這一發現強調了提示詞設計的核心原則:信息密度和指令清晰度比單純追求禮貌更重要。開發者與用戶需意識到,不同的模型架構和訓練數據可能導致對提示語的敏感度存在差異。





