商湯科技近日宣布,與南洋理工大學 S-Lab 聯合研發的多模態模型架構 NEO 正式開源發布。這一成果為日日新 SenseNova 多模態模型提供了新一代架構支撐,標志著多模態領域的技術突破邁出重要一步。

與傳統模塊化設計不同,NEO 架構從底層原理出發,采用原生多模態設計理念,通過核心架構層面的深度融合,實現了性能、效率與通用性的全面提升。研發團隊在注意力機制、位置編碼和語義映射三個關鍵維度進行底層創新,使模型能夠統一處理視覺與語言信息,突破了單一模態的局限性。
針對跨模態訓練中常見的語言能力退化問題,NEO 架構引入 Pre-buffer & Post-LLM 雙階段融合訓練策略。該策略在保留原始大語言模型完整推理能力的基礎上,從零構建視覺感知模塊,確保兩種模態能力同步增強且互不干擾。這種創新訓練方式有效解決了傳統方法中語言能力受損的技術瓶頸。
為推動行業技術發展,商湯科技已開源基于 NEO 架構的 2B 與 9B 兩種參數規模的模型。這兩個版本既保持了架構的核心優勢,又為不同應用場景提供了靈活選擇。開源社區可通過這些基礎模型開展二次開發,加速原生多模態架構的技術迭代與應用落地。











