螞蟻百靈大模型團隊日前正式推出兩款開源的高效推理模型——Ring-flash-linear-2.0與Ring-mini-linear-2.0,同時發布了兩款自主研發的高性能融合算子,包括FP8融合算子及線性Attention推理融合算子。這些技術突破旨在通過“大參數、低激活”的設計,實現超長上下文支持與高效推理,為復雜計算場景提供更低成本的解決方案。
據團隊披露,新模型通過架構優化與高性能算子的協同,將深度推理場景下的成本壓縮至同等規模密集模型的十分之一。相較于前代Ring系列模型,推理成本進一步降低超50%,顯著減少了用戶在進行復雜任務時的計算資源消耗。這一改進不僅提升了工作效率,也為資源有限的環境提供了可行性更強的技術路徑。
兩款模型的核心優勢之一在于訓練與推理引擎算子的高度對齊。這種設計使模型在強化學習階段能夠進行長周期、穩定且高效的優化,從而在多個高難度推理評測中持續保持領先表現。對于需要處理復雜邏輯或長序列數據的用戶而言,這一特性提供了更可靠的技術支持。
作為開源項目,Ring-flash-linear-2.0與Ring-mini-linear-2.0已上線Hugging Face及ModelScope等平臺,開發者可自由獲取模型代碼及相關文檔。此舉不僅降低了技術門檻,也為全球AI社區提供了可擴展的推理工具,助力更多創新應用的落地。
此次開源標志著螞蟻百靈大模型團隊在AI效率優化領域的進一步突破。通過共享核心技術,團隊不僅展現了技術實力,更為開發者提供了提升研究效率的實用工具,有望推動AI技術在更多場景中的深度應用。