近日,科技領域迎來一項重要突破——DeepSeek團隊在GitHub平臺正式開源其最新研發的DeepSeek-OCR模型,該成果聚焦于光學字符識別技術的革新應用。
作為針對長文本場景設計的創新方案,該模型采用約30億參數的輕量化架構,首次系統驗證了"光學二維映射壓縮"技術在復雜上下文處理中的可行性。研究團隊通過模塊化設計,將核心功能拆解為視覺編碼與文本解碼兩大組件。
在視覺處理環節,DeepEncoder模塊展現出獨特優勢。該組件能夠在接收高分辨率圖像輸入時,自動維持低激活狀態,通過動態壓縮算法將視覺信息轉化為精簡的token序列。這種設計既保證了信息完整性,又顯著降低了計算資源消耗。
解碼部分則由改進型的DeepSeek3B-MoE-A570M架構承擔。該解碼器通過混合專家系統(MoE)架構,實現了對視覺token的高效解析與文本重構。實驗表明,當視覺token與文本token的比例控制在1:10以內時,模型識別準確率可達97%;即使壓縮比例提升至20倍,仍能保持約60%的識別精度。
技術團隊特別指出,該模型的創新之處在于建立了視覺壓縮與文本生成的動態平衡機制。通過控制token壓縮比率,系統能夠在信息保留與計算效率間取得最優解,這種特性為大語言模型的記憶管理提供了全新研究視角。
目前,開源版本已包含完整的訓練框架與推理代碼,支持多種分辨率的文檔圖像處理。研究團隊表示,后續將重點優化極端壓縮場景下的性能表現,并探索該技術在多模態大模型中的擴展應用。











