近日,人工智能領域迎來一項創新成果——DeepSeek團隊推出名為DeepSeek-OCR的模型,通過“上下文光學壓縮”技術,為大語言模型處理長文檔提供了高效解決方案。該模型突破了傳統方法對算力和內存的高依賴,為海量文檔處理場景開辟了新路徑。
當前,大語言模型在處理數千字甚至更長的文本時,計算量呈指數級增長,導致算力成本飆升,成為制約其應用的關鍵瓶頸。DeepSeek團隊從人類視覺系統獲取靈感:人類閱讀文檔時,視覺系統能快速捕捉頁面布局、段落結構等關鍵信息,并進行高效壓縮。基于此,團隊提出“視覺預處理”思路——將文本渲染為圖像,通過視覺模型壓縮后,再交由語言模型處理,從而大幅減少輸入token數量。
DeepSeek-OCR的核心架構由兩部分組成:DeepEncoder(深度編碼器)和基于混合專家模型(MoE)的解碼器。其中,DeepEncoder融合了SAM(Segment Anything Model)和CLIP(Contrastive Language–Image Pre-training)兩種視覺模型架構。SAM擅長處理局部細節,通過窗口注意力機制捕捉分散的視覺特征;CLIP則依賴全局注意力機制,提取整體知識信息。兩者通過16倍下采樣的卷積模塊銜接,形成“先局部后全局”的處理流程,有效解決了高分辨率圖像處理中的內存溢出和token爆炸問題。
解碼端采用DeepSeek自研的30億參數混合專家模型,激活參數為5.7億。該模型通過動態分配任務至不同專家網絡,在保持規模可控的同時,實現了強大的文本還原能力。實驗表明,在處理600至1,300個文本token的英文文檔時,DeepSeek-OCR僅需64或100個視覺token即可完成處理。當壓縮比低于10倍時,OCR解碼精度達97%以上;即使壓縮比達20倍,準確率仍維持在60%左右。
在OmniDocBench等實際應用場景測試中,DeepSeek-OCR的表現優于同類模型。例如,相較于GOT-OCR2.0(每頁256個token)和MinerU2.0(每頁超6000個token),DeepSeek-OCR以更少的視覺token達到了業界先進水平。模型通過訓練包含圖表、化學分子式、幾何圖形等多樣化數據,具備了深度解析能力。例如,它能將報告中的圖表轉換為表格數據,將化學文獻中的分子式輸出為SMILES格式,甚至解析幾何圖形中的線段關系,為金融、科研、教育等領域提供了新的工具。
目前,DeepSeek已開源該模型的核心代碼和權重。據技術報告披露,在生產環境中,單張A100-40G GPU每日可處理超20萬頁文檔數據。不過,模型仍存在局限:當壓縮比超過10倍時,性能會因信息損失或圖像分辨率降低而下降;在處理極端復雜版面時,解析能力有待提升。OCR任務與多輪對話理解存在本質差異,前者側重感知和解碼,后者涉及推理、記憶檢索等復雜認知過程。技術報告指出,未來計劃開展數字文本與光學文本交錯的預訓練實驗,并評估長上下文檢索的準確性。
盡管如此,DeepSeek-OCR為視覺與語言模態的融合提供了新思路。傳統方法通常將兩者作為獨立輸入處理,而該模型表明,視覺與語言可互為信息壓縮和解壓的媒介。基于這一范式,未來或可探索將多輪對話歷史渲染為圖像,以更低成本管理更長的對話;或將海量知識庫壓縮為視覺索引,提升知識檢索效率。







