不同于卡帕西早期開發的純預訓練模型nanoGPT,此次發布的nanochat構建了完整的全棧訓練-推理流程。項目通過精簡代碼庫(僅8304行代碼),整合了從數據預處理到強化學習的全流程,其架構設計融合了meta Llama的簡化結構與modded-nanoGPT的改進方案。開發者只需啟動云GPU實例并運行單個腳本,最快4小時即可完成基礎模型訓練。
實驗數據顯示,該系統在成本控制方面表現突出。卡帕西透露,完成指令微調(SFT)階段的訓練僅耗時3小時51分鐘,總成本92.4美元(約合人民幣657.4元)。當訓練時長延長至12小時,模型在CORE評估指標上的表現已超越GPT-2;若投入提升至1000美元(約合人民幣7114.7元)進行41.6小時訓練,系統可解決基礎數學與編程問題,并通過選擇題測試。
技術實現層面,項目包含七大核心功能:采用Rust語言重寫的訓練分詞器、基于FineWeb數據集的預訓練機制、多階段中期訓練(含用戶對話數據與工具使用數據)、指令微調與多基準評估、可選的GRPO強化學習算法、帶KV緩存的高效推理引擎,以及自動生成的Markdown評估報告。其中,推理引擎支持Python解釋器工具調用,可通過命令行或網頁界面交互。
性能測試表明,深度為30的模型訓練24小時后(計算量相當于GPT-3的千分之一),在MMLU語言理解基準取得超40分,ARC-Easy常識推理突破70分,GSM8K數學測試達20分以上。卡帕西展示的對話案例顯示,基礎版系統已具備撰寫詩歌、回答常識問題的能力。
開源社區對該項目反應熱烈。網友不僅稱贊其"極具啟發性",更有人制作出可交互的實時代碼圖譜,幫助開發者直觀探索代碼結構。有評論指出,這種高效開發模式為AI技術普及開辟了新路徑——在適當架構設計下,百美元級成本實現基礎對話功能已成為技術現實。
盡管當前版本與商用大模型存在性能差距,但其展現的性價比優勢已引發行業關注。隨著開源社區持續優化,這種輕量化開發模式或將在教育、客服等場景催生新的應用可能。











