華為蘇黎世計算系統實驗室近日宣布推出一項革命性的開源量化技術——SINQ(Sinkhorn歸一化量化),該技術專為優化大語言模型(LLM)的硬件資源利用而設計。通過創新性的壓縮算法,SINQ顯著降低了模型運行所需的顯存空間和計算成本,為人工智能領域的高效部署提供了新方案。
實驗室測試數據顯示,SINQ技術對不同規模的大語言模型均展現出強大的壓縮能力。在保持模型性能的前提下,顯存占用可減少60%至70%。例如,原本需要超過60GB顯存才能運行的復雜模型,經SINQ優化后僅需約20GB顯存即可部署,大幅降低了硬件門檻。
這項技術的突破性在于其歸一化量化機制,通過Sinkhorn算法對模型權重進行高效重構,在壓縮過程中最大程度保留了原始模型的信息密度。與傳統的量化方法相比,SINQ不僅減少了資源消耗,還維持了模型的推理精度,為大規模語言模型的商業化應用開辟了新路徑。
目前,SINQ已作為開源項目對外發布,研究人員和開發者可自由獲取相關代碼并應用于實際場景。隨著人工智能模型規模持續擴大,這項技術有望緩解高算力需求帶來的硬件壓力,推動更高效的AI系統落地。











