滾動資訊

當(dāng)前位置：首頁 > 資訊 > 人工智能 > 正文內(nèi)容

DeepSeek開源3B新模型DeepSeek-OCR：光學(xué)壓縮破局長文本困境，小模型釋放大能量

時間：2025-10-20 20:14:10 來源：互聯(lián)網(wǎng)編輯：快訊 IP：北京 發(fā)表評論無障礙通道

近日，人工智能領(lǐng)域迎來一項突破性進展——DeepSeek團隊正式開源其3B參數(shù)規(guī)模的OCR模型DeepSeek-OCR。這款模型通過創(chuàng)新性的"光學(xué)壓縮"技術(shù)，在保持高識別精度的同時，將文本處理所需的計算資源大幅降低，為長文本處理開辟了全新路徑。

傳統(tǒng)大語言模型在處理長文本時面臨計算復(fù)雜度呈平方級增長的困境，序列長度每增加一倍，算力消耗便增長四倍。DeepSeek團隊獨辟蹊徑，提出將文本信息轉(zhuǎn)化為視覺模態(tài)進行處理的方案。通過光學(xué)壓縮技術(shù)，模型能夠?qū)?000個文本Token的內(nèi)容壓縮為100個視覺Token，在保持97%以上OCR準(zhǔn)確率的前提下，實現(xiàn)10倍壓縮率。即便將壓縮率提升至20倍，準(zhǔn)確率仍能維持在60%左右。

在基準(zhǔn)測試中，該模型展現(xiàn)出驚人效率：僅需100個視覺Token即可超越GOT-OCR2.0（每頁256個Token）的性能；使用不足800個視覺Token時，其表現(xiàn)已優(yōu)于MinerU2.0（平均每頁超6000個Token）。在實際生產(chǎn)環(huán)境中，單塊A100-40G顯卡每日可生成超20萬頁訓(xùn)練數(shù)據(jù)，20個節(jié)點組成的集群每日處理量可達3300萬頁。

模型架構(gòu)由兩大核心組件構(gòu)成：DeepEncoder負(fù)責(zé)圖像特征提取與壓縮，DeepSeek3B-MoE解碼器則完成視覺Token到文本的重建。其中DeepEncoder的創(chuàng)新設(shè)計尤為突出，通過串聯(lián)SAM-base（8000萬參數(shù)）與CLIP-large（3億參數(shù)）模型，結(jié)合16×卷積壓縮器，在保證高分辨率處理能力的同時，將激活內(nèi)存開銷控制在合理范圍。該編碼器支持512×512至1280×1280的多分辨率輸入，涵蓋Tiny（64 Token）到Large（400 Token）四種原生模式及動態(tài)Gundam模式。

解碼器采用的MoE架構(gòu)實現(xiàn)參數(shù)效率與模型能力的平衡。64個專家模塊中激活6個，配合2個共享專家，實際激活參數(shù)約5.7億。這種設(shè)計使模型既具備30億參數(shù)模型的表達能力，又保持5億參數(shù)模型的推理效率。訓(xùn)練數(shù)據(jù)方面，團隊構(gòu)建了包含3000萬頁多語言PDF的龐大語料庫，其中中英文數(shù)據(jù)達2500萬頁，涵蓋約100種語言。

數(shù)據(jù)標(biāo)注采用粗細(xì)結(jié)合的策略：粗標(biāo)注數(shù)據(jù)通過fitz工具直接從PDF提取，用于基礎(chǔ)語言識別訓(xùn)練；精標(biāo)注數(shù)據(jù)則借助PP-DocLayout等模型生成，包含版面分析與文本識別的復(fù)合標(biāo)注。針對小語種數(shù)據(jù)，團隊開發(fā)"模型飛輪"機制，通過迭代標(biāo)注將初始數(shù)據(jù)量擴展至60萬條。300萬條Word文檔數(shù)據(jù)專門用于提升公式識別與表格解析能力，場景OCR數(shù)據(jù)集則包含中英文各1000萬條樣本。

該模型的創(chuàng)新不僅限于效率提升，其深度解析能力在STEM領(lǐng)域展現(xiàn)巨大潛力。通過統(tǒng)一提示詞，模型可實現(xiàn)多種復(fù)雜圖像的結(jié)構(gòu)化提取：金融報告中的圖表可轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)，化學(xué)結(jié)構(gòu)式自動轉(zhuǎn)為SMILES格式，幾何圖形完成復(fù)制與結(jié)構(gòu)化解析，自然圖像生成密集描述。這種能力在化學(xué)、物理、數(shù)學(xué)等需要處理符號與圖形的學(xué)科中具有重要應(yīng)用價值。

研究團隊提出更具前瞻性的設(shè)想——利用光學(xué)壓縮模擬人類遺忘機制。通過將歷史對話內(nèi)容渲染為圖像并逐級壓縮，實現(xiàn)內(nèi)容清晰度隨時間自然衰減的效果。這種設(shè)計使近期上下文保持高分辨率，歷史上下文占用更少資源，理論上可支持"無限上下文"處理。雖然該方向仍處于早期研究階段，但已展現(xiàn)出突破長文本處理瓶頸的可能性。

目前，DeepSeek-OCR的完整代碼、論文及預(yù)訓(xùn)練模型已通過GitHub與HuggingFace平臺開源。項目地址：http://github.com/deepseek-ai/DeepSeek-OCR；論文鏈接：https://github.com/deepseek-ai/DeepSeek-OCR/blob/main/DeepSeek_OCR_paper.pdf；模型下載：https://huggingface.co/deepseek-ai/DeepSeek-OCR。這項研究為視覺語言模型與大語言模型的融合發(fā)展提供了全新思路，證明通過模態(tài)轉(zhuǎn)換實現(xiàn)計算效率優(yōu)化的可行性。

更多>同類資訊

華為哈勃等入股極佳視界助力通用視覺大模型研發(fā)新發(fā)展

11-04

煥新極氪7X上市：137項豪華配置全系標(biāo)配，重新定義家庭豪華SUV新標(biāo)桿

11-04

遠(yuǎn)景能源：以物理AI為翼，引領(lǐng)能源行業(yè)邁向智能新紀(jì)元

就在同一天，遠(yuǎn)景能源發(fā)布了行業(yè)首個伽利略AI風(fēng)機，這款以近代科學(xué)之父命名的智能風(fēng)機，搭載過億參數(shù)規(guī)模的神經(jīng)網(wǎng)絡(luò)，能夠提前調(diào)整變槳策略，在部件亞健康階段就預(yù)警干預(yù)，如同為風(fēng)機植入了 “不知疲倦的超級大腦”…

11-04

NVIDIA新突破ChronoEdit：為AI圖像編輯戴上“物理眼鏡” 開啟新紀(jì)元

11-04

喬治亞大學(xué)團隊新突破：讓AI推理既“多線探索”又“精準(zhǔn)聚焦”

11-04

Meta新突破：Transformer與Mamba融合，打造高效長文本處理AI新架構(gòu)

11-04

谷歌領(lǐng)銜突破：AI學(xué)會表達判斷確定性，有效減少系統(tǒng)偏見難題

11-04

香港浸會大學(xué)團隊新突破：讓AI數(shù)學(xué)證明學(xué)會“舉一反三”能力

11-04

谷歌團隊突破：AI借力海量教程視頻，實現(xiàn)電腦操作自主“偷師”

11-04

主logo更新后谷歌再行動：相冊與地圖圖標(biāo)換新顏，融入漸變色設(shè)計

11-04

亞馬遜與OpenAI達成380億美元合作：OpenAI部署算力，亞馬遜AWS增長迎新機遇

11-04

蘋果2026年新品與系統(tǒng)更新計劃曝光 AI國行版或隨iOS 26.4亮相并升級Siri

11-04

DeepSeek突發(fā)故障引網(wǎng)友熱議，8月也曾“罷工”你受影響了嗎？

11-04

?黃仁勛談中美科技：美國低估中國潛力，AI領(lǐng)域差距僅在“納秒”間?

11-04

今年前三季度我國機器人產(chǎn)業(yè)“加速跑”：營收大增產(chǎn)量技術(shù)雙突破

11-04

點擊查看更多 +

全站最新

比亞迪2025東京車展首發(fā)K-EV，雙線策略拓展日本市場構(gòu)建新能源生態(tài)

毛曉彤成都車展優(yōu)雅現(xiàn)身，自然真誠盡顯本真之美

5伏特固態(tài)電池登場：破解電動車?yán)m(xù)航難題，引領(lǐng)產(chǎn)業(yè)升級新未來

極狐全新阿爾法T5增程版來襲，限時優(yōu)享價10.98萬起，能否再掀熱銷潮？

豐田“A”系列引擎：從歷史溯源到性能革新，見證運動精神傳承

雪佛蘭2023款COPO科邁羅亮相：10.4升V8引擎，直線加速賽道專屬猛獸

熱門內(nèi)容

本欄最新

煥新極氪7X上市：137項豪華配置全系標(biāo)配，重新定義家庭豪華SUV新標(biāo)桿

2025年合資新能源“起勢”：以中國定制破局，能否重塑市場新格局？

從接娃到自駕游：騰勢N8L用全維科技，讓全家出行每個痛點都有解

比亞迪騰勢N8L大六座SUV來襲，安全豪華科技兼?zhèn)洌页鲂行逻x擇

極氪7X煥新登場，全系標(biāo)配豪華科技，重塑家庭豪華SUV新標(biāo)桿

騰勢N8L上市：29.98萬起享超安全大六座，科技豪華定義家庭出行新體驗

本網(wǎng)站LOGO小熊標(biāo)志受版權(quán)保護，版權(quán)登記號：魯作登字-2015-F-025467，未經(jīng)ITBEAR官方許可，嚴(yán)禁使用。
聲明：本網(wǎng)站是公益性科普網(wǎng)站，為網(wǎng)友提供科技類資訊內(nèi)容，無障礙技術(shù)由太陽灣捐增，為閱讀障礙用戶提供內(nèi)容聽讀服務(wù)。如本站內(nèi)容侵犯了您的權(quán)利，請通知我們及時刪除。
中國（山東）自由貿(mào)易試驗區(qū) 魯ICP備11015305號-1 聯(lián)系入口
Copyright ? 小熊科技資訊 2007-2024 ITBEAR.COM.CN All rights reserved.

国产精品三级视频_欧美日韩一区二区在线_亚洲国产精品久久久久秋霞蜜臀_国产在线视频2019最新视频_97香蕉久久超级碰碰高清版_亚洲午夜一区二区_制服丝袜亚洲网站_美女av一区二区三区_欧美壮男野外gaytube_欧美日韩一级二级

DeepSeek開源3B新模型DeepSeek-OCR：光學(xué)壓縮破局長文本困境，小模型釋放大能量