硅谷科技圈近日被一款來自中國的開源模型攪動(dòng)得沸沸揚(yáng)揚(yáng)。這款名為DeepSeek-OCR的30億參數(shù)模型,憑借"視覺壓縮文本"的創(chuàng)新理念,在GitHub上線三天即斬獲3300顆星,HuggingFace熱榜沖至次席,X平臺(tái)更是掀起"AI的JPEG時(shí)刻"的熱烈討論。
這款被開發(fā)者戲稱"被名字耽誤的革命性模型",其核心突破在于重構(gòu)了文本處理范式。研究團(tuán)隊(duì)發(fā)現(xiàn),當(dāng)文本token數(shù)與視覺token數(shù)的壓縮比控制在10倍以內(nèi)時(shí),模型OCR解碼準(zhǔn)確率可達(dá)97%;即便壓縮至20倍,仍能保持60%的準(zhǔn)確度。這種"以圖載文"的思路,恰似人類閱讀時(shí)"掃一眼知全貌"的認(rèn)知模式——通過單張圖片承載數(shù)千文字信息,顯著降低計(jì)算成本。
技術(shù)實(shí)現(xiàn)層面,模型采用雙組件架構(gòu):編碼器DeepEncoder負(fù)責(zé)將圖像轉(zhuǎn)化為高密度視覺token,解碼器DeepSeek3B-MoE-A570M則從壓縮token中重建文本。其中編碼器的設(shè)計(jì)尤為精妙:先通過窗口注意力機(jī)制進(jìn)行局部特征提取,再經(jīng)16倍卷積壓縮器削減token數(shù)量,最后由全局注意力模型完成深度理解。這種"局部-壓縮-全局"的三段式處理,使1024x1024分辨率圖像的token數(shù)從4096銳減至256。
實(shí)驗(yàn)數(shù)據(jù)顯示,該模型在主流文檔解析基準(zhǔn)OmniDocBench上創(chuàng)造新紀(jì)錄。僅用100個(gè)視覺token,性能即超越使用256token的GOT-OCR2.0;400token時(shí)與前SOTA持平;不足800token便大幅領(lǐng)先需7000token的MinerU2.0。更驚人的是其訓(xùn)練效率——單塊A100-40G GPU每日可生成超20萬頁優(yōu)質(zhì)訓(xùn)練數(shù)據(jù),較傳統(tǒng)方法提升數(shù)十倍。
技術(shù)突破背后是三位低調(diào)研究者的智慧結(jié)晶。主導(dǎo)開發(fā)者Haoran Wei曾主導(dǎo)第二代OCR系統(tǒng)GOT-OCR2.0研發(fā),此次工作延續(xù)了端到端文檔解析的技術(shù)路徑。核心成員Yaofeng Sun深度參與DeepSeek R1、V3等明星模型開發(fā),而擁有谷歌近萬次學(xué)術(shù)引用的Yukun Li,則持續(xù)貢獻(xiàn)于V2/V3系列模型優(yōu)化。
研究團(tuán)隊(duì)提出的"光學(xué)壓縮模擬遺忘機(jī)制"引發(fā)更深層思考。通過將近期記憶比作高分辨率圖像(需多token保留細(xì)節(jié)),遠(yuǎn)期記憶類比為模糊圖像(用少token自然壓縮),模型可動(dòng)態(tài)分配計(jì)算資源。這種類腦設(shè)計(jì)使超長上下文處理成為可能——當(dāng)對(duì)話或文檔跨越漫長時(shí)間軸時(shí),系統(tǒng)能像人類記憶般自動(dòng)"淡忘"非關(guān)鍵信息,同時(shí)保持核心內(nèi)容的精準(zhǔn)度。
卡帕西等AI領(lǐng)域權(quán)威對(duì)"視覺優(yōu)于文本輸入"的設(shè)計(jì)給予高度評(píng)價(jià),認(rèn)為這打開了AI記憶架構(gòu)的新路徑。相較于傳統(tǒng)模型對(duì)短期、中期、遠(yuǎn)期上下文"一視同仁"的處理方式,DeepSeek的解決方案更接近人類認(rèn)知模式,有望解決長文本處理中的算力爆炸難題。
目前該模型已展現(xiàn)多領(lǐng)域解析能力,除常規(guī)文字識(shí)別外,還能深度解析金融報(bào)表、化學(xué)分子式、數(shù)學(xué)幾何圖及百余種語言文檔。這種跨模態(tài)理解突破,正推動(dòng)AI向更接近人類智能的方向演進(jìn)。











