一道看似簡單的數學題——比較9.9與9.11的大小,竟成為考驗人工智能模型能力的試金石。近日,阿里巴巴最新公測的千問APP在回答該問題時出現失誤,引發業界對AI模型基礎運算能力的關注。測試中,千問首次回答稱"9.11更大",隨后在問題拆解階段又正確指出"9.9大于9.11",最終通過自我糾錯機制修正了答案。
據技術團隊分析,此次錯誤源于雙重因素:一方面,模型在推理過程中雖正確拆解了小數比較規則(9.9的十分位為9,9.11的十分位為1),但最終結論出現筆誤;另一方面,"9.11"的三位數形式引發了數字長度錯覺,導致潛意識干擾。這種認知偏差在語言模型處理數值問題時尤為常見,因其本質是通過統計相關性而非嚴格邏輯推理進行判斷。
該問題最早由艾倫研究機構成員林禹臣發現。他曾在社交平臺曝光ChatGPT-4o將13.11誤判為大于13.8的案例。隨后,Scale AI工程師萊利·古德賽德設計變體問題"9.9與9.11誰更大",導致包括ChatGPT-4o、谷歌Gemini Advanced在內的多個主流模型集體"翻車"。這一測試迅速成為衡量AI基礎能力的標志性案例。
盡管在常識性運算上存在短板,中國AI模型在全球化競爭中已展現強勁實力。以阿里巴巴Qwen系列為例,其全球下載量突破6億次,在技術積累與生態布局方面形成獨特優勢。愛彼迎CEO布萊恩·切斯基公開表示,公司已大規模采用Qwen模型替代部分OpenAI服務,因其"速度更快、成本更低"。這種選擇折射出商業場景對模型實用性的考量正在超越單純的技術參數競爭。
阿里巴巴日前正式宣布全面進軍AI消費級市場,將地圖導航、外賣訂餐、票務預訂等20余個生活服務場景接入千問APP。該平臺基于開源模型Qwen3構建,被管理層視為"AI時代的關鍵戰役"。此舉不僅意味著中國科技企業正借助開源生態擴大國際影響力,更標志著AI競爭從技術層面向應用層面全面升級。值得關注的是,千問項目在修正基礎運算錯誤的同時,正通過多模態交互與場景化訓練持續提升模型泛化能力。











