近日,月之暗面核心團隊在海外社交平臺Reddit上發(fā)起了一場深度互動問答活動,聯(lián)合創(chuàng)始人兼CEO楊植麟等多位技術(shù)負(fù)責(zé)人就模型研發(fā)、技術(shù)路線選擇及開源生態(tài)建設(shè)等熱點問題展開回應(yīng)。此次活動吸引了大量海外開發(fā)者參與,問題覆蓋模型性能優(yōu)化、技術(shù)架構(gòu)創(chuàng)新及商業(yè)化路徑等多個維度。
針對Kimi K2 Thinking模型訓(xùn)練成本的網(wǎng)絡(luò)爭議,楊植麟明確否認(rèn)"460萬美元"的傳言。他指出,模型研發(fā)成本難以簡單量化,研究實驗階段的投入占比顯著。同時透露團隊已啟動視覺-語言(VL)版本研發(fā),但純文本模型優(yōu)先發(fā)布是因正確數(shù)據(jù)獲取與訓(xùn)練需要更長時間。對于用戶反饋的推理時間過長問題,他解釋當(dāng)前版本優(yōu)先保障絕對性能,后續(xù)將通過獎勵機制優(yōu)化token使用效率。
在技術(shù)架構(gòu)層面,混合線性注意力架構(gòu)Kimi Linear成為討論焦點。該架構(gòu)在短上下文、長上下文及強化學(xué)習(xí)擴展等場景首次超越傳統(tǒng)全注意力機制,其核心模塊KDA已被納入下一代模型規(guī)劃。楊植麟透露,KDA在長思維鏈強化學(xué)習(xí)場景中展現(xiàn)出高效優(yōu)勢,未來可能結(jié)合擴散模型進行創(chuàng)新,但文本擴散應(yīng)用仍面臨先驗不足的技術(shù)挑戰(zhàn)。算法負(fù)責(zé)人周昕宇進一步說明,KDA混合架構(gòu)在預(yù)訓(xùn)練和強化學(xué)習(xí)階段均優(yōu)于傳統(tǒng)方案,成本效益顯著提升。
面對模型實際體驗與榜單成績的差異質(zhì)疑,楊植麟承認(rèn)現(xiàn)階段存在通用能力不足的問題。他以HLE基準(zhǔn)測試為例,表示團隊正在通過提升智能體推理能力來改善實際應(yīng)用表現(xiàn)。對于用戶提出的100萬token上下文窗口需求,周昕宇坦言此前嘗試因服務(wù)成本過高暫停,但未來會重新評估技術(shù)方案。在模型部署方面,針對企業(yè)用戶對"中國大模型"的安全顧慮,聯(lián)合創(chuàng)始人吳育昕強調(diào)開源策略可消除部分擔(dān)憂,企業(yè)自主部署能提升信任度。
關(guān)于AI瀏覽器開發(fā)計劃,周昕宇直言無需通過Chromium套殼實現(xiàn)模型優(yōu)化,團隊將專注核心模型訓(xùn)練并持續(xù)更新kimi.com功能。在商業(yè)化層面,針對編程訂閱方案API計費模式引發(fā)的資源消耗爭議,團隊表示將探索更優(yōu)解決方案,同時強調(diào)當(dāng)前計費方式符合企業(yè)成本結(jié)構(gòu)且透明度高。對于小型模型需求,楊植麟透露已發(fā)布Kimi-Linear-48B等輕量化版本,未來將擴展更多功能模型。
這場持續(xù)數(shù)小時的技術(shù)對話,不僅展現(xiàn)了月之暗面在混合注意力架構(gòu)、強化學(xué)習(xí)等領(lǐng)域的創(chuàng)新突破,更通過坦誠回應(yīng)海外開發(fā)者關(guān)切,彰顯了中國AI團隊的技術(shù)自信與開放態(tài)度。從模型性能優(yōu)化到開源生態(tài)建設(shè),從技術(shù)路線選擇到商業(yè)化實踐,這場跨越時區(qū)的問答揭示了中國AI創(chuàng)新正在獲得全球技術(shù)社區(qū)的深度關(guān)注。











