編程模型領域迎來新一輪技術突破——Anthropic推出的Claude Sonnet 4.5模型在多項關鍵指標上超越前代,成為當前性能最強的編程專用模型。這款新模型不僅在代碼生成效率上實現質的飛躍,更在安全性與專業領域應用方面展現出顯著優勢。
在編程能力驗證方面,Claude Sonnet 4.5在SWE-bench測試中取得1.8個百分點的提升,達到行業領先水平。更引人注目的是其持續工作能力——第三方測試顯示,該模型可自主完成長達30小時的編程任務,期間生成超過1.1萬行代碼,成功構建出具備完整功能的類Slack聊天應用。這一表現較前代Opus 4模型的7小時持續工作時長提升超4倍。
計算機系統操作測試(OSWorld)中,新模型以60.2分的成績刷新紀錄,較前代提升近50%。在終端編程(Terminal-Bench)和工具使用(τ2-bench)等專項測試中,同樣展現出顯著進步。數學能力驗證方面,該模型在AIME 2025試題中達到100%準確率(借助Python工具),純推理模式準確率也高達87%。
專業領域應用成為另一大亮點。在金融、醫療、法律及STEM四大領域,新模型相較前代對基準模型的勝率大幅提升,16K上下文環境下開啟深度思考模式時,準確率均突破60%閾值。某金融機構AI負責人評價稱,該模型已能提供投資級專業分析,顯著提升決策效率。
安全性方面,通過專項訓練,模型諂媚、欺騙等不良行為發生率大幅降低。在防御即時注入攻擊測試中,新模型展現出更強的魯棒性,正常請求誤拒率從0.15%降至0.02%。GitHub首席產品官Mario Rodriguez特別指出,該模型顯著提升了Copilot處理跨代碼庫復雜任務的能力。
技術生態同步升級,Anthropic發布的Claude Agent SDK將智能體開發框架從專用代碼工具擴展為通用開發平臺。新框架系統化構建"上下文收集-行動執行-結果驗證"開發循環,重點解決長任務內存管理、權限控制系統、多智能體協作三大技術難題。配套推出的Imagine with Claude功能支持實時需求轉化,用戶輸入構思即可自動生成可運行原型。
在商業策略上,新模型延續"提質不提價"原則,輸入/輸出token價格分別維持3美元和15美元每百萬單位。Cognition公司CEO Scott Wu透露,基于該模型開發的Devin工具在規劃能力和端到端評估中取得突破性進展。目前開發者已可通過官方渠道體驗新模型及開發工具。











