Anthropic公司推出的Claude Sonnet 4.5人工智能模型在多項技術指標上實現突破性進展。該模型在SWE-bench Verified基準測試中以顯著優勢登頂行業榜首,展現出處理復雜編程任務的強大能力。據測試數據顯示,其可持續執行高強度任務超過30小時,單次代碼生成量可達1.1萬行,在構建智能體系統、自動化操作、邏輯推理及數學計算等核心領域均有顯著提升。在OSWorld測試中,該模型取得61.4%的優異成績,進一步驗證其系統級操作能力。
產品功能層面,Claude生態體系迎來全面升級。Chrome瀏覽器插件實現類人操作模式,可自主完成網頁交互任務;代碼編輯器新增檢查點機制與終端界面優化,并推出原生VS Code插件支持。API服務擴展上下文編輯功能與記憶工具集,將代碼執行與文件創建流程無縫整合至對話界面。開發者平臺同步開放Agent SDK工具包,為第三方應用開發提供標準化接口。
商業策略方面,新模型延續前代定價體系,每百萬tokens處理成本維持3至15美元區間。市場反饋呈現分化態勢:部分用戶肯定其在代碼庫重構中的優雅架構設計,但指出生成結果存在執行障礙;Cursor團隊認為長周期任務處理效率顯著提升;開發者Dan Shipper則強調響應速度、控制精度與系統穩定性均有改善。值得關注的是,該模型在對齊性優化方面取得重大進展,有效降低不當行為發生率,在防御提示注入攻擊和內容誤判抑制等安全指標上實現突破。
技術創新層面,「Imagine with Claude」臨時研究功能作為Max訂閱用戶專屬權益開放五天,提供多模態交互預覽服務。但市場分析指出,該模型仍面臨激烈競爭環境——Anthropic當前估值達1830億美元,8月年化營收突破50億美元,但需應對OpenAI與Google Gemini的市場擠壓。此前Claude系列曾遭遇模型性能波動爭議,此次升級被視為重塑用戶信心的關鍵舉措,其長期市場表現仍有待持續觀察。











