月之暗面核心團(tuán)隊(duì)近日在海外社交平臺(tái)Reddit舉辦了一場(chǎng)互動(dòng)問答活動(dòng),針對(duì)其最新發(fā)布的Kimi K2 Thinking模型展開深入交流。聯(lián)合創(chuàng)始人兼CEO楊植麟帶領(lǐng)技術(shù)團(tuán)隊(duì)直面海外開發(fā)者提出的多個(gè)尖銳問題,涉及模型訓(xùn)練成本、性能優(yōu)化方向及開源策略等核心議題。
針對(duì)網(wǎng)絡(luò)流傳的"K2模型訓(xùn)練成本僅460萬(wàn)美元"說法,楊植麟明確否認(rèn)該數(shù)據(jù)真實(shí)性。他解釋稱訓(xùn)練成本包含大量研究實(shí)驗(yàn)投入,難以簡(jiǎn)單量化。團(tuán)隊(duì)正研發(fā)K2的視覺-語(yǔ)言版本,同時(shí)透露混合線性注意力架構(gòu)Kimi Linear的核心模塊可能應(yīng)用于下一代模型K3。當(dāng)被問及K3發(fā)布時(shí)間時(shí),楊植麟以幽默方式回應(yīng):"在Sam的萬(wàn)億美元數(shù)據(jù)中心建成前"。
關(guān)于模型性能爭(zhēng)議,技術(shù)團(tuán)隊(duì)給出詳細(xì)技術(shù)解析。針對(duì)推理時(shí)間較長(zhǎng)的問題,楊植麟承認(rèn)當(dāng)前版本優(yōu)先保障絕對(duì)性能,后續(xù)將通過獎(jiǎng)勵(lì)機(jī)制優(yōu)化token使用效率。對(duì)于HLE基準(zhǔn)測(cè)試高分與實(shí)際體驗(yàn)差異,他表示團(tuán)隊(duì)正在提升模型通用能力,未來將改善長(zhǎng)思維鏈與實(shí)際場(chǎng)景的適配度。算法負(fù)責(zé)人周昕宇補(bǔ)充說明,KDA混合架構(gòu)在預(yù)訓(xùn)練和強(qiáng)化學(xué)習(xí)階段均展現(xiàn)出顯著優(yōu)勢(shì),其對(duì)比完整MLA架構(gòu)具有更高效率和更低成本。
在模型應(yīng)用層面,聯(lián)合創(chuàng)始人吳育昕回應(yīng)了關(guān)于"封禁"的擔(dān)憂。他指出開源策略有助于消除企業(yè)部署顧慮,雖然部分使用限制超出控制范圍,但技術(shù)透明化能建立長(zhǎng)期信任。針對(duì)上下文窗口擴(kuò)展需求,團(tuán)隊(duì)承認(rèn)256K長(zhǎng)度對(duì)大型代碼庫(kù)存在局限,未來版本將考慮提升容量,不過此前嘗試百萬(wàn)token窗口時(shí)面臨服務(wù)成本過高挑戰(zhàn)。
關(guān)于產(chǎn)品形態(tài)規(guī)劃,周昕宇明確否定了開發(fā)AI瀏覽器的可能性,強(qiáng)調(diào)應(yīng)專注模型核心能力提升而非疊加外殼。楊植麟透露kimi.com將持續(xù)迭代新功能,同時(shí)已推出480億參數(shù)的Kimi-Linear小型模型滿足不同場(chǎng)景需求。針對(duì)API計(jì)費(fèi)模式爭(zhēng)議,團(tuán)隊(duì)解釋當(dāng)前按請(qǐng)求次數(shù)收費(fèi)更符合企業(yè)成本結(jié)構(gòu),但承諾將探索更優(yōu)解決方案。
這場(chǎng)跨國(guó)技術(shù)對(duì)話引發(fā)海外開發(fā)者熱烈反響,提問覆蓋模型架構(gòu)、訓(xùn)練細(xì)節(jié)到商業(yè)策略等20余個(gè)維度。中國(guó)AI團(tuán)隊(duì)展現(xiàn)的技術(shù)深度與開放態(tài)度,折射出全球開發(fā)者對(duì)中國(guó)創(chuàng)新實(shí)力的重新認(rèn)知。多個(gè)技術(shù)細(xì)節(jié)的披露,也為國(guó)際AI社區(qū)提供了具有參考價(jià)值的實(shí)踐樣本。











