近期,一款名為DeepSeek-OCR的開源模型引發科技界廣泛關注,其憑借獨特的技術路徑和高效能表現,被硅谷諸多專家贊譽為AI領域的突破性成果。這款由DeepSeek團隊推出的模型,通過“視覺壓縮文本”的創新思路,成功解決了大模型處理長文本時算力消耗過大的難題,甚至被部分觀點認為觸及了谷歌Gemini等頭部模型的“技術護城河”。
核心突破在于“上下文光學壓縮”機制。研究團隊提出,既然單張圖片可承載數千字信息,是否可通過視覺token壓縮文本內容,讓模型通過“看圖”理解信息?基于此,他們構建了僅3B參數的DeepSeek-OCR模型,在主流文檔解析基準OmniDocBench上取得新最優成績。實驗數據顯示,該模型使用100個視覺token即可超越需256個token的GOT-OCR2.0;當視覺token增至400個時,性能已與前SOTA模型持平;而使用不足800個token時,其表現遠超需近7000個token的MinerU2.0。
技術實現依賴兩大核心組件:編碼器DeepEncoder與解碼器DeepSeek3B-MoE-A570M。前者采用“局部-壓縮-全局”三級架構,先通過窗口注意力模型提取高分辨率圖像的局部特征,再經16倍卷積壓縮器大幅減少token數量,最后由全局注意力模型深度解析濃縮后的信息。這種設計使模型在保持高信息密度的同時,將計算開銷控制在合理范圍。更關鍵的是,DeepEncoder支持從“Tiny”(512x512分辨率,64個token)到“Gundam”(動態分塊,近800個token)的多模式輸入,可根據任務需求靈活調整壓縮強度。
實際性能驗證中,模型展現出強大的文本解析能力。在壓縮率小于10倍(文本token數為視覺token數的10倍以內)時,OCR解碼準確率高達97%;即使壓縮率達20倍,準確率仍保持60%左右。這種“以小博大”的效果,得益于視覺壓縮對文本信息的高效表達——一張圖片包含的token量遠少于直接編碼文本所需的量,卻能完整保留語義信息。
技術開源后迅速引發行業熱議。GitHub平臺該模型已獲3.3K星標,HuggingFace熱度沖至榜單第二,X社交平臺上專家評價不斷。曾批評AI現狀的卡帕西公開表示:“圖像作為LLM輸入的思路非常巧妙,這確實是更高效的表達方式。”更有觀點將其類比為“AI的JPEG時刻”,認為這種視覺-文本壓縮范式為AI記憶架構開辟了新路徑。
研究團隊進一步提出,該技術可模擬人類記憶的“遺忘機制”。通過將近期記憶渲染為高分辨率圖像(用更多token保留細節),遠期記憶壓縮為低分辨率圖像(用更少token表示模糊信息),模型能動態分配計算資源。這種設計使模型在處理超長對話或文檔時,可像人類一樣自然“遺忘”過期信息,從而構建無限長上下文架構。盡管目前該方向仍處于早期研究階段,但已為解決AI長文本處理中的計算資源暴漲問題提供了新思路。
除技術突破外,DeepSeek的高效研發風格同樣引人注目。研究顯示,其數據生成方法僅需一塊A100-40G GPU,每日即可產出超20萬頁優質LLM/VLM訓練數據。這種低成本、高產出的模式,進一步降低了大模型研發的門檻。
目前,DeepSeek-OCR已支持對金融報表、化學分子式、數學幾何圖及100多種語言的復雜圖像解析。其開源代碼和模型權重可通過Hugging Face及GitHub平臺獲取,為全球開發者提供了研究基礎。











