蘋果公司近日在機器學習研究領域公布了一項重要進展,其最新發布的M5芯片在本地大語言模型(LLM)運行性能上實現顯著突破。這項成果通過蘋果自主研發的開源框架MLX進行驗證,該框架專為Apple Silicon設計,依托統一內存架構實現CPU與GPU的高效協同,為模型運行提供硬件級支持。
在針對多款開源大模型的基準測試中,M5芯片展現出超越前代的運算能力。測試選用不同參數規模的Qwen系列模型和GPT OSS模型,通過MLX LM工具包進行核心文本生成任務評估。數據顯示,M5在生成后續文本token時的速度較M4提升19%至27%,這一優勢主要源于內存帶寬的顯著提升——M5的153GB/s帶寬較M4的120GB/s增加28%,有效解決了內存密集型任務的性能瓶頸。
研究團隊詳細解析了LLM推理過程中的雙階段負載特性:首個token生成主要受限于計算單元的算力,而后續token的持續輸出則高度依賴內存傳輸效率。這種特性使得M5的內存帶寬優勢在長文本生成場景中尤為突出。實測數據顯示,配備24GB內存的MacBook Pro可流暢運行參數規模達300億的4-bit量化混合專家模型(MoE),推理內存占用控制在18GB以內。
具體到不同模型的性能表現,測試數據呈現差異化特征:Qwen3-1.7B模型在首個token生成耗時3.57秒,后續token生成速度達1.27個/秒;參數規模擴展至8B的4-bit量化版本,在內存占用顯著降低至5.61GB的同時,仍保持1.24個/秒的后續生成速度;更大規模的gpt-oss-20b模型則展現出3.33秒的首token生成時間和1.24個/秒的持續輸出能力。
除文本處理領域的突破外,M5芯片在視覺計算方面同樣實現跨越式發展。其集成的全新GPU神經加速器專門優化了矩陣乘法運算——這是機器學習負載的核心算子。這項硬件革新使圖像生成任務的處理速度達到M4芯片的3.8倍以上,為創意設計、內容生成等視覺AI應用提供了更強大的硬件支撐,標志著蘋果在多模態AI計算領域邁出關鍵一步。











