近日,人工智能領(lǐng)域迎來一項突破性進展——DeepSeek團隊正式開源其3B參數(shù)規(guī)模的OCR模型DeepSeek-OCR。這款模型通過創(chuàng)新性的"光學(xué)壓縮"技術(shù),在保持高識別精度的同時,將文本處理所需的計算資源大幅降低,為長文本處理開辟了全新路徑。
傳統(tǒng)大語言模型在處理長文本時面臨計算復(fù)雜度呈平方級增長的困境,序列長度每增加一倍,算力消耗便增長四倍。DeepSeek團隊獨辟蹊徑,提出將文本信息轉(zhuǎn)化為視覺模態(tài)進行處理的方案。通過光學(xué)壓縮技術(shù),模型能夠?qū)?000個文本Token的內(nèi)容壓縮為100個視覺Token,在保持97%以上OCR準(zhǔn)確率的前提下,實現(xiàn)10倍壓縮率。即便將壓縮率提升至20倍,準(zhǔn)確率仍能維持在60%左右。
在基準(zhǔn)測試中,該模型展現(xiàn)出驚人效率:僅需100個視覺Token即可超越GOT-OCR2.0(每頁256個Token)的性能;使用不足800個視覺Token時,其表現(xiàn)已優(yōu)于MinerU2.0(平均每頁超6000個Token)。在實際生產(chǎn)環(huán)境中,單塊A100-40G顯卡每日可生成超20萬頁訓(xùn)練數(shù)據(jù),20個節(jié)點組成的集群每日處理量可達3300萬頁。
模型架構(gòu)由兩大核心組件構(gòu)成:DeepEncoder負(fù)責(zé)圖像特征提取與壓縮,DeepSeek3B-MoE解碼器則完成視覺Token到文本的重建。其中DeepEncoder的創(chuàng)新設(shè)計尤為突出,通過串聯(lián)SAM-base(8000萬參數(shù))與CLIP-large(3億參數(shù))模型,結(jié)合16×卷積壓縮器,在保證高分辨率處理能力的同時,將激活內(nèi)存開銷控制在合理范圍。該編碼器支持512×512至1280×1280的多分辨率輸入,涵蓋Tiny(64 Token)到Large(400 Token)四種原生模式及動態(tài)Gundam模式。
解碼器采用的MoE架構(gòu)實現(xiàn)參數(shù)效率與模型能力的平衡。64個專家模塊中激活6個,配合2個共享專家,實際激活參數(shù)約5.7億。這種設(shè)計使模型既具備30億參數(shù)模型的表達能力,又保持5億參數(shù)模型的推理效率。訓(xùn)練數(shù)據(jù)方面,團隊構(gòu)建了包含3000萬頁多語言PDF的龐大語料庫,其中中英文數(shù)據(jù)達2500萬頁,涵蓋約100種語言。
數(shù)據(jù)標(biāo)注采用粗細(xì)結(jié)合的策略:粗標(biāo)注數(shù)據(jù)通過fitz工具直接從PDF提取,用于基礎(chǔ)語言識別訓(xùn)練;精標(biāo)注數(shù)據(jù)則借助PP-DocLayout等模型生成,包含版面分析與文本識別的復(fù)合標(biāo)注。針對小語種數(shù)據(jù),團隊開發(fā)"模型飛輪"機制,通過迭代標(biāo)注將初始數(shù)據(jù)量擴展至60萬條。300萬條Word文檔數(shù)據(jù)專門用于提升公式識別與表格解析能力,場景OCR數(shù)據(jù)集則包含中英文各1000萬條樣本。
該模型的創(chuàng)新不僅限于效率提升,其深度解析能力在STEM領(lǐng)域展現(xiàn)巨大潛力。通過統(tǒng)一提示詞,模型可實現(xiàn)多種復(fù)雜圖像的結(jié)構(gòu)化提取:金融報告中的圖表可轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),化學(xué)結(jié)構(gòu)式自動轉(zhuǎn)為SMILES格式,幾何圖形完成復(fù)制與結(jié)構(gòu)化解析,自然圖像生成密集描述。這種能力在化學(xué)、物理、數(shù)學(xué)等需要處理符號與圖形的學(xué)科中具有重要應(yīng)用價值。
研究團隊提出更具前瞻性的設(shè)想——利用光學(xué)壓縮模擬人類遺忘機制。通過將歷史對話內(nèi)容渲染為圖像并逐級壓縮,實現(xiàn)內(nèi)容清晰度隨時間自然衰減的效果。這種設(shè)計使近期上下文保持高分辨率,歷史上下文占用更少資源,理論上可支持"無限上下文"處理。雖然該方向仍處于早期研究階段,但已展現(xiàn)出突破長文本處理瓶頸的可能性。
目前,DeepSeek-OCR的完整代碼、論文及預(yù)訓(xùn)練模型已通過GitHub與HuggingFace平臺開源。項目地址:http://github.com/deepseek-ai/DeepSeek-OCR;論文鏈接:https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf;模型下載:https://huggingface.co/deepseek-ai/DeepSeek-OCR。這項研究為視覺語言模型與大語言模型的融合發(fā)展提供了全新思路,證明通過模態(tài)轉(zhuǎn)換實現(xiàn)計算效率優(yōu)化的可行性。











