AI領域再掀波瀾,月之暗面公司推出的Kimi K2 Thinking模型引發全球開發者熱議。這款新銳模型在Humanity's Last Exam、TAU-Bench等權威測試中力壓OpenAI的GPT-5和Anthropic的Claude Sonnet 4.5,其API調用價格卻不足競爭對手的四分之一。Hugging Face聯合創始人Thomas Wolf在社交平臺驚嘆:"這難道是中國AI界的又一次DeepSeek時刻?"
在模型發布后48小時內,北京時間凌晨時分,月之暗面三位創始人楊植麟、周昕宇、吳育昕首次集體亮相Reddit問答社區,與海外開發者展開長達數小時的深度對話。這場跨越時區的交流涉及技術路徑、商業模式、AGI發展等數十個核心議題,其中訓練成本問題最受關注。
針對外界盛傳的"460萬美元訓練成本"說法,楊植麟明確否認:"研究實驗成本難以精確量化,這個數字并不準確。"他透露團隊采用1萬億參數混合專家架構,通過原生INT4量化技術將推理速度提升兩倍,配合H800 GPU集群的極致優化,在硬件條件不占優勢的情況下實現了成本控制突破。目前模型輸入成本為每百萬token 1-4元,輸出成本16元,性價比優勢顯著。
面對開發者關于模型"過于冗長"的質疑,技術團隊給出了獨特的技術哲學。楊植麟解釋稱當前版本優先保障復雜任務處理能力,后續將通過獎勵機制優化token效率。這種設計使模型能連續調用200-300次工具完成復雜推理,在"思考-工具"交替模式中保持穩定性。聯合創始人吳育昕補充道,實現這種交錯調用模式是開發過程中最具挑戰的技術突破。
在多模態發展路徑上,團隊選擇先聚焦文本模型。楊植麟表示視覺語言模型的訓練需要更多數據積累和參數調整,未來將逐步完善多模態能力。對于備受關注的K3發布時間,他以幽默方式回應:"在Sam的萬億級數據中心建成之前",引發網友對行業巨頭工程進度的調侃。
技術路線選擇方面,月之暗面展現出鮮明特色。針對DeepSeek采用的OCR方案,周昕宇認為特征空間優化更具通用性。團隊正在研發的KDA實驗架構采用3:1混合比例,通過"抓取關鍵信息"的方式優化性能、速度和顯存占用。內部測試的Kimi Linear新結構(基于KDA注意力模塊)已顯示出良好前景,可與稀疏化技術形成協同效應。
當被問及是否會推出更大規模閉源模型時,楊植麟的回答暗含深意:"如果變得太危險的話"。這種兼顧技術發展與安全控制的表述,為未來商業化策略留下想象空間。目前該模型在Hugging Face平臺下載量已突破5萬次,成為最受歡迎的開源模型之一,其技術路線選擇和商業模式創新正在重塑AI行業競爭格局。











