近日,一款名為DeepSeek-OCR的開源模型在AI領域掀起熱議,其獨特的視覺壓縮技術被硅谷科技圈盛贊為"AI的JPEG時刻",甚至有觀點認為該模型揭開了谷歌Gemini核心技術的神秘面紗。
這款30億參數的輕量級模型,通過"上下文光學壓縮"技術實現了對長文本處理的革命性突破。研究團隊將海量文字信息編碼為高密度視覺token,使模型在保持97%解碼準確率的同時,將計算資源消耗降低至傳統方法的1/10。即便在20倍壓縮率下,模型仍能維持60%的準確率,這種"四兩撥千斤"的效果引發學術界廣泛關注。
技術實現層面,DeepSeek-OCR采用雙階段編碼架構:前端通過SAM-base模型進行局部特征提取,生成4096個基礎token;中段16倍卷積壓縮器將token數量銳減至256個;后端CLIP-large模型完成全局語義理解。這種"先分解后聚合"的設計,使單塊A100-40G GPU每日可生成20萬頁訓練數據,效率較傳統方法提升百倍。
在OmniDocBench基準測試中,該模型展現出驚人優勢:僅用100個視覺token即超越GOT-OCR2.0的256token方案;400token時與前SOTA模型持平;800token時性能遠超使用7000token的MinerU2.0。這種"以小博大"的特性,使其在GitHub上線后迅速斬獲3300星標,HuggingFace熱度榜沖至第二。
研究團隊提出的"光學遺忘"機制更具創新性。通過模擬人類記憶的衰退過程,將近期記憶編碼為高分辨率圖像(多token保留細節),遠期記憶壓縮為低分辨率圖像(少token實現遺忘)。這種動態資源分配方案,為構建無限上下文窗口提供了新思路,有望解決傳統大模型在處理超長文本時的算力爆炸問題。
該成果背后是三位低調科學家的跨界合作:主導過GOT-OCR2.0開發的Haoran Wei,參與DeepSeek R1/V3研發的Yaofeng Sun,以及谷歌學術近萬引的李宇琨。三人將視覺壓縮與語言模型深度融合的技術路徑,被AI教父卡帕西評價為"讓圖像成為更優的LLM輸入載體"的突破性嘗試。
目前,這項研究已在學術圈引發連鎖反應。多位專家指出,這種統一視覺與語言的壓縮范式,可能成為通往通用人工智能的關鍵路徑之一。隨著訓練數據生成效率的指數級提升,輕量級模型挑戰萬億參數巨頭的時代或許已經來臨。











