人工智能領域編程能力競爭再度升級,Anthropic公司正式推出新一代編程模型Claude Sonnet 4.5,在多項技術指標上實現突破性進展。這款被稱作"全球最強編程模型"的新品,在真實編程場景測試中力壓群雄,同時將AI持續工作時長提升至30小時以上,引發行業高度關注。
在權威編程測試平臺SWE-bench Verified的最新評估中,Claude Sonnet 4.5以顯著優勢登頂榜首。該測試專門考察模型解決實際編程問題的能力,涵蓋代碼修復、功能擴展等復雜任務。更令人矚目的是,在模擬真實計算機操作的OSWorld基準測試中,新模型取得61.4%的準確率,較四個月前的前代產品提升近20個百分點,創下該測試歷史新高。
這款模型展現出驚人的持續工作能力,可連續30小時保持高效編程狀態。對比此前Claude Opus 4和Codex等模型最多7小時的獨立工作時間,新模型在耐力方面實現質的飛躍。實測顯示,其能一次性完成約1.1萬行代碼的編寫任務,相當于開發一個完整聊天應用的代碼量。
技術升級帶來顯著效率提升。開發者反饋顯示,新模型在代碼重構任務中表現突出,某次調用中同時完成25次工具調用、新增3000余行代碼并生成12個全新文件。雖然生成的模塊化代碼首次運行存在缺陷,但其架構設計的優雅性獲得專業人士認可。Cursor等開發工具平臺證實,該模型在處理長周期編程任務時,錯誤率較前代降低37%。
伴隨模型發布,Anthropic同步推出多項開發工具創新。Claude Code新增"檢查點"功能,支持開發進度實時保存與回溯;原生VS Code插件實現終端界面全面升級;API服務整合代碼執行與文件創建功能,開發者可在對話中直接完成全流程開發。最受關注的是Claude Agent SDK的開放,這套構建智能體的底層框架,解決了記憶管理、權限控制等關鍵技術難題。
定價策略延續親民路線,新模型API調用費用與前代持平,每百萬tokens收費3至15美元。安全性能方面,通過強化對齊訓練,模型在防范欺騙行為、抵制權力誘惑等維度取得突破性進展。測試數據顯示,提示注入攻擊的防御成功率提升至92%,內容誤判率下降至0.7%以下。
市場反應呈現兩極分化。部分開發者驚嘆于其代碼生成效率,稱"這是首個能真正參與企業級開發的AI模型";也有用戶指出生成的代碼需要較多人工調試。技術社區出現有趣現象:盡管兩個月前遭遇"降智"風波導致部分用戶流失,但新模型發布后,原Codex用戶中出現回流趨勢,GitHub相關討論量周增45%。
競爭格局因新模型發布再度生變。當前Anthropic估值達1830億美元,年化營收突破50億美元,其中編程工具貢獻超四成收入。面對OpenAI和谷歌Gemini的激烈競爭,公司選擇在對手年度開發者大會前夕發布新品,戰略意圖明顯。聯合創始人Jared Kaplan透露,更強大的Opus系列模型將于年內推出,暗示大小模型協同發展的技術路線。
創新功能"Imagine with Claude"引發技術圈熱議。該臨時研究預覽僅向高級訂閱用戶開放五天,其核心突破在于實現軟件功能的實時生成與調整。所有界面元素和底層代碼均在用戶交互過程中動態創建,這種"所見即所建"的開發模式,為AI輔助編程開辟全新路徑。技術分析師指出,該功能若能穩定運行,將重新定義人機協作的邊界。