人工智能領(lǐng)域迎來新突破,DeepSeek公司近日在GitHub平臺開源了一款創(chuàng)新的OCR模型,并同步發(fā)表了技術(shù)論文《DeepSeek OCR:上下文光學(xué)壓縮》。該模型通過視覺模態(tài)實現(xiàn)文本信息的高效壓縮,為解決大語言模型處理長文本時的計算瓶頸提供了新思路。
研究團隊發(fā)現(xiàn),現(xiàn)有大語言模型在處理超長文本時面臨顯著的計算壓力。為此,他們創(chuàng)新性地將文本信息轉(zhuǎn)化為視覺模態(tài),利用"一圖勝千言"的原理大幅減少Token消耗。實驗數(shù)據(jù)顯示,這種光學(xué)壓縮技術(shù)可實現(xiàn)近10倍的無損上下文壓縮,同時保持97%以上的OCR準(zhǔn)確率。在A100-40G顯卡環(huán)境下,單日可生成超過20萬頁的模型訓(xùn)練數(shù)據(jù)。
該模型采用雙組件架構(gòu)設(shè)計:DeepEncoder編碼器負(fù)責(zé)圖像特征提取與壓縮,DeepSeek3B-MoE解碼器則從壓縮后的視覺Token中重建文本。解碼器采用混合專家(MoE)架構(gòu),在30億參數(shù)規(guī)模中僅激活約5.7億有效參數(shù),兼顧了模型表達能力與推理效率。當(dāng)壓縮率控制在10倍以內(nèi)時,OCR精度穩(wěn)定在97%;即使壓縮率提升至20倍,準(zhǔn)確率仍維持在60%左右。
研究團隊提出了更具前瞻性的設(shè)想——模擬人類記憶衰退機制。通過逐步縮小歷史上下文的圖像渲染尺寸,實現(xiàn)Token消耗的遞減式壓縮。隨著圖像尺寸縮小,內(nèi)容清晰度相應(yīng)降低,最終達到類似人類記憶的漸進式遺忘效果。這種設(shè)計為處理無限上下文信息提供了理論可能,目前該方向仍處于早期探索階段。
項目核心成員包括Haoran Wei、Yaofeng Sun和Yukun Li三位研究員。其中Haoran Wei曾主導(dǎo)開發(fā)第二代OCR系統(tǒng)GOT-OCR2.0,具備深厚的技術(shù)積累。該模型開源后迅速獲得業(yè)界關(guān)注,GitHub平臺累計獲得超過1400個星標(biāo)。
盡管市場對DeepSeek未發(fā)布R2新模型存在爭議,但此次技術(shù)突破顯示公司正專注于底層技術(shù)創(chuàng)新。光學(xué)壓縮技術(shù)不僅優(yōu)化了現(xiàn)有模型性能,更為下一代大語言模型的發(fā)展開辟了新路徑。這種將文本與視覺信息深度融合的研究方向,可能成為通向通用人工智能的重要突破口。











