月之暗面公司近日正式推出具備通用Agentic能力和深度推理能力的Kimi-k2 thinking模型,該模型通過多輪工具調用機制,可系統化解決復雜問題。作為Kimi K2系列的最新迭代版本,此次發布在技術架構和商業化應用層面均實現突破。
基礎技術參數顯示,Kimi K2系列模型采用10000億總參數架構,其中320億參數處于激活狀態。9月5日推出的Kimi K2-0905版本已完成核心能力升級,新增Agentic Coding編程能力,支持256K長文本處理,API輸出速度達60-100Token/s,并兼容Claude Code編程接口。此次發布的thinking版本在此基礎上強化了推理決策模塊。
商業化方案采用差異化定價策略。標準版kimi-k2-thinking每百萬tokens輸入價格(緩存未命中)為4元,輸出價格16元;高速版kimi-k2-thinking-turbo輸入價格提升至8元,輸出價格達58元,主要面向對響應速度有極致要求的業務場景。這種分層定價模式為不同需求用戶提供靈活選擇。
在編程能力測試中,模型成功生成包含導航欄、主體展示區的開源模型分享網站HTML原型。該原型不僅實現簡潔現代的設計風格,更集成一鍵復現、模型對比等特色功能。交互測試顯示,搜索框、按鈕等組件均可正常響應,點擊上傳模型按鈕時能準確顯示文件大小限制等提示信息。生成該項目消耗9K tokens,耗時約3分鐘,但在多次生成測試中出現偶發崩潰現象。
數學推理測試選取2025年國際數學奧林匹克競賽(IMO)第六題作為挑戰樣本。標準版模型經過4分鐘、21188字的思考過程后給出錯誤答案4048塊(正確答案為2112塊),消耗23.5K tokens。高速版模型雖將響應時間壓縮至2分鐘,但tokens消耗激增至38.5K,且答案保持一致錯誤。在第四題測試中,模型經過10余分鐘、47684字的深度思考后終止運算,重復測試仍卡在47940字處未能給出解答。技術團隊指出,當前版本不支持圖片公式自動識別,制約了復雜數學問題的輸入效率。
常識推理測試展現模型優勢。面對基礎邏輯問題,模型能快速識別邏輯陷阱并給出準確答案。在進階測試中,模型在1分鐘內完成16.6K tokens的推理運算,答案準確率保持較高水平。這種表現印證了其在結構化問題處理方面的技術積累。
行業觀察顯示,推理型AI模型競爭進入白熱化階段。11月4日阿里剛發布Qwen3-Max-Thinking早期預覽版,月之暗面隨即推出對標產品。隨著Agentic AI成為技術發展主流,模型的自主推理能力正成為衡量AI系統解決現實問題能力的核心指標。這種技術競賽推動著AI從單一任務執行向復雜系統決策的范式轉變。











