馬斯克旗下人工智能公司xAI近日推出新一代大模型Grok 4.1,以"智商情商雙突破"的定位向行業頭部發起沖擊。該模型分為Thinking(推理版)和標準版兩個版本,現已通過Grok官網及X平臺向全球用戶開放,移動端iOS和Android應用同步更新,用戶可免費體驗。
在權威評測平臺LMArena的最新榜單中,Grok 4.1 Thinking以1483分登頂全球大模型排行榜,較第二名Gemini 2.5 Pro高出31分。其標準版同樣表現亮眼,直接占據榜單次席。更引人注目的是情商專項測試EQ-Bench3的結果:Thinking版以1586分刷新紀錄,標準版緊隨其后,國產模型Kimi K2位列第三。
實測反饋顯示,新模型在交互體驗上實現質的飛躍。相比前代產品,Grok 4.1展現出更強的共情能力,回復中不僅增加耐心傾聽的表述,還會在結尾添加愛心符號等情感化設計。創作能力方面,其文本生成評分較前代提升600分,敘事流暢度與畫面感顯著增強。技術團隊通過優化訓練方法,將模型幻覺率從12.09%壓縮至4.22%,降幅達65%。
xAI后訓練負責人Dustin Tran透露,技術突破主要源于強化學習框架的革新。團隊開發了基于智能體推理模型的獎勵機制,通過分析數萬條真實對話數據,將RLHF(人類反饋強化學習)技術推向新高度。"我們擴大了10倍訓練規模,讓模型在自主評估與迭代響應中實現指數級進化。"他舉例說明,新系統能像人類評委般分析對話質量,并據此優化回答策略。
值得關注的是,xAI近期因團隊構成引發討論。社交平臺流傳的合影顯示,其核心研發團隊以亞裔工程師為主。有消息稱,公司近期調整了人員結構,但官方未對此作出回應。這種技術團隊的國際化特征,或許正是其能快速突破技術瓶頸的關鍵因素。
關于備受期待的Grok 5,馬斯克在最新訪談中給出明確時間表。這款規劃中的6萬億參數模型將推遲至明年發布,原因在于需要更強大的算力支撐訓練過程。"這將是通往通用人工智能的重要里程碑,"他強調,"我們寧愿延遲也要確保其成為世界上最智能的系統。"與此同時,谷歌即將推出的Gemini 3.0被行業視為Grok 4.1的有力競爭者,大模型領域的軍備競賽正進入白熱化階段。











