賓夕法尼亞州立大學近期完成了一項關于大語言模型交互方式的研究,重點考察提問語氣對模型回答準確性的影響。這項以《Mind Your Tone》為題的研究發現,在特定條件下,使用更直接甚至略顯強硬的語氣提問,可能比禮貌表達獲得更精準的回答。
研究團隊構建了一個包含50道選擇題的測試庫,題目覆蓋數學計算、科學原理、歷史事件等學科領域,每道題均設置中等難度。針對每個問題,研究人員設計了五種不同語氣的提問版本,從極度禮貌到直接強硬形成梯度變化。實驗對象選用OpenAI最新發布的GPT-4o模型,通過固定指令要求模型忽略對話歷史,僅輸出選項字母以排除其他干擾因素。
數據顯示,當采用強硬語氣提問時,GPT-4o的平均正確率達到84.8%,相較禮貌語氣的80.8%高出4個百分點。研究團隊分析認為,禮貌表達中常見的修飾性詞匯和冗余信息可能分散模型對問題核心的注意力,而簡潔直接的提問方式有助于模型更精準地定位關鍵信息。
不過這種效果存在模型代際差異。實驗同時測試了GPT-3.5和Llama2-70B等早期模型,發現這些系統在面對禮貌提問時表現更優,強硬語氣反而導致準確率下滑。研究人員指出,新一代模型在訓練階段接觸了更豐富的語言樣本,特別是包含多樣化語氣表達的對話數據,使其具備了更強的語境適應能力。
該研究強調,模型對提問語氣的響應并非固定模式,而是與訓練數據特征、模型架構設計密切相關。對于開發者而言,這提示需要構建更全面的測試場景來評估模型的實際表現;對于使用者來說,則需根據具體模型特性調整交互策略,而非簡單套用某種提問模板。





