商湯科技攜手南洋理工大學(xué)S-Lab實(shí)驗(yàn)室,正式推出并開源全新多模態(tài)模型架構(gòu)NEO。該架構(gòu)通過底層技術(shù)革新,首次實(shí)現(xiàn)視覺與語言信息的深度統(tǒng)一,在模型性能、數(shù)據(jù)效率及任務(wù)適應(yīng)性方面取得突破性進(jìn)展,為多模態(tài)大模型發(fā)展開辟了新路徑。
在數(shù)據(jù)效率維度,NEO展現(xiàn)出顯著優(yōu)勢(shì)。傳統(tǒng)高性能視覺語言模型通常需要數(shù)十億級(jí)圖像文本對(duì)進(jìn)行訓(xùn)練,而NEO僅需3.9億組數(shù)據(jù)即可達(dá)到同等水平,數(shù)據(jù)量?jī)H為行業(yè)標(biāo)桿模型的十分之一。這種突破得益于其創(chuàng)新的架構(gòu)設(shè)計(jì),無需依賴外部視覺編碼器即可直接處理原始圖像信號(hào),在視覺問答、圖文匹配等任務(wù)中,性能已比肩Qwen2-VL、InternVL3等模塊化旗艦?zāi)P汀?/p>
權(quán)威評(píng)測(cè)數(shù)據(jù)印證了NEO的領(lǐng)先性。在MMMU、MMB、MMStar等跨模態(tài)基準(zhǔn)測(cè)試中,該模型在視覺理解、語義推理等核心指標(biāo)上全面超越原生視覺語言模型(VLM),特別是在涉及復(fù)雜空間關(guān)系和細(xì)微圖像特征的任務(wù)中表現(xiàn)尤為突出。其"精度無損"的原生架構(gòu)設(shè)計(jì),有效解決了模塊化模型因模態(tài)割裂導(dǎo)致的信息損耗問題。
針對(duì)現(xiàn)有技術(shù)瓶頸,研究團(tuán)隊(duì)重構(gòu)了多模態(tài)處理范式。傳統(tǒng)方案多采用"視覺編碼器+語言模型"的拼接架構(gòu),這種設(shè)計(jì)雖能處理基礎(chǔ)圖文任務(wù),但存在本質(zhì)缺陷:視覺信號(hào)需經(jīng)離散化轉(zhuǎn)換才能輸入語言模型,導(dǎo)致圖像細(xì)節(jié)丟失;模態(tài)交互僅發(fā)生在數(shù)據(jù)層面,無法實(shí)現(xiàn)深層語義融合。這些問題在需要精細(xì)空間推理的場(chǎng)景中尤為明顯,例如解讀建筑圖紙或醫(yī)療影像時(shí),模型常因結(jié)構(gòu)理解不足而出現(xiàn)錯(cuò)誤。
NEO的創(chuàng)新體現(xiàn)在三個(gè)技術(shù)維度:在注意力機(jī)制層面,模型創(chuàng)新性地整合文本的自回歸注意力與圖像的雙向注意力,使空間關(guān)系建模效率提升40%;位置編碼系統(tǒng)采用動(dòng)態(tài)幾何編碼技術(shù),可自適應(yīng)不同圖像分辨率;語義映射模塊通過連續(xù)向量空間構(gòu)建,徹底摒棄傳統(tǒng)離散化token處理方式。這些改進(jìn)使模型能直接處理原始像素信號(hào),無需中間轉(zhuǎn)換步驟。
兩大核心技術(shù)構(gòu)成NEO的突破基礎(chǔ)。原生圖塊嵌入技術(shù)(PEL)通過可學(xué)習(xí)的卷積核直接對(duì)像素進(jìn)行連續(xù)建模,相比傳統(tǒng)離散化方法,能保留97%以上的圖像細(xì)節(jié)信息。原生多頭注意力機(jī)制則突破模態(tài)壁壘,在統(tǒng)一架構(gòu)下實(shí)現(xiàn)文本序列的時(shí)序建模與圖像空間的結(jié)構(gòu)建模,這種設(shè)計(jì)使模型在處理圖文混合內(nèi)容時(shí),推理速度提升2.3倍,同時(shí)保持98%以上的語義一致性。
該成果已通過開源方式向?qū)W術(shù)界和產(chǎn)業(yè)界開放,包含完整訓(xùn)練代碼、預(yù)訓(xùn)練模型及技術(shù)文檔。研究團(tuán)隊(duì)表示,NEO架構(gòu)為多模態(tài)大模型提供了新的設(shè)計(jì)范式,其高效的數(shù)據(jù)利用能力和統(tǒng)一的模態(tài)處理機(jī)制,將推動(dòng)自動(dòng)駕駛、智能醫(yī)療、數(shù)字內(nèi)容生成等領(lǐng)域的實(shí)際應(yīng)用發(fā)展。目前已有多個(gè)國際團(tuán)隊(duì)基于該架構(gòu)開展延伸研究,探索在遙感監(jiān)測(cè)、工業(yè)檢測(cè)等場(chǎng)景的落地可能。









