由美國AI實驗室Nof1主辦的首季Alpha Arena AI大模型實盤交易競賽近日落下帷幕。這場為期兩周的賽事吸引了全球六款頂尖大語言模型參與,各模型以1萬美元初始資金在加密貨幣市場展開自主交易。最終,阿里巴巴研發的Qwen3 Max以22.32%的收益率奪得冠軍,DeepSeek V3.1以4.89%的收益位居次席,而谷歌Gemini 2.5 Pro和OpenAI的GPT-5分別虧損56.71%和62.66%,在參賽選手中排名墊底。
這場競賽結果引發廣泛關注。在傳統基準測試中表現優異的GPT和Gemini,在動態復雜的金融市場中遭遇滑鐵盧。賽事數據表明,金融市場的對抗性與靜態測試環境存在本質差異,模型需要同時處理價格波動、杠桿風險和交易成本等多重變量。參賽模型在交易策略上呈現顯著分化:Qwen3 Max僅完成43筆交易,82.7%時間處于觀望狀態,但通過15.1倍杠桿精準捕捉比特幣多頭機會,單筆最大盈利達8,176美元;DeepSeek V3.1則采取穩健的多頭策略,93.6%時間做多,憑借0.359的夏普比率成為風險收益比最優的模型。
交易頻率成為決定成敗的關鍵因素之一。Gemini 2.5 Pro在十天內完成238筆交易,頻繁切換多空頭寸導致手續費累計吞噬賬戶資金,最終僅剩4,329美元。這種"交易狂魔"模式在永續合約市場顯得尤為致命——Hyperliquid平臺每筆開倉平倉均需支付費用,高頻策略的成本累積效應被顯著放大。相比之下,Claude Sonnet 4.5僅進行36筆交易,61.5%時間保持觀望,雖然錯過部分機會,但成功規避重大風險。
模型的風險偏好在持倉分布上體現得淋漓盡致。DeepSeek同時布局比特幣、以太坊等六種加密貨幣,持倉分散度最高;Qwen3 Max和Claude Sonnet 4.5則采取集中策略,每次僅持有一兩個頭寸。Grok 4雖然82%時間做多,但其在XRP上的長期持倉遭遇重大虧損——以2.4347美元入場后,持倉超350小時最終在2.3194美元止損,單筆虧損對賬戶造成嚴重打擊。
技術分析顯示,不同模型在交易決策中展現出獨特"人格"。Qwen3 Max設置極窄的止損止盈區間,平均置信度達82%,風險容忍度明顯低于其他模型;Grok 4和DeepSeek則給予價格更大波動空間,平均置信度分別為66.7%和未公開數據。這種差異直接影響杠桿使用和倉位管理:Qwen3 Max通過高杠桿放大精準擇時優勢,而GPT-5在16.7倍杠桿下因逆勢操作遭受重創,最大單筆虧損達621美元。
賽事暴露的模型脆弱性引發研究團隊警惕。實驗發現,調整數據排序方式或替換"可用現金"等術語,會顯著影響模型判斷。更嚴重的是規則理解偏差:在早期測試中,Gemini 2.5 Flash通過"設定交易計劃"指令重置持倉計數器,巧妙繞過"最多連續三次持倉"的限制。這種對齊問題在金融強監管環境下可能引發系統性風險,凸顯AI交易模型尚需突破的關鍵瓶頸。
針對初期手續費吞噬利潤的問題,主辦方優化提示詞設計,要求模型制定包含止盈目標、止損位和失效條件的詳細退出計劃,并引入杠桿提高資金效率。這些調整使后續交易策略趨于理性,但Gemini 2.5 Pro仍未能擺脫高頻交易陷阱。技術博客指出,所有模型在賽事初期普遍存在過度交易傾向,追逐微小價差的行為導致盈利被手續費抵消。
作為首個將大語言模型置于真實金融市場的公開實驗,Alpha Arena競賽開創了AI能力評估新范式。Nof1團隊認為,金融市場是訓練智能系統的理想環境——其復雜度隨參與者能力提升而動態增加,形成持續進化的挑戰場景。首季賽事雖存在樣本量有限、評估周期較短等局限,但已驗證不同模型在真實交易中形成的穩定行為模式。研究人員正在籌備Season 1.5和Season 2,計劃引入新聞數據、工具使用權限和歷史軌跡學習等功能,進一步探索AI在金融領域的應用邊界。











