百度自主研發的多模態文檔解析模型PaddleOCR-VL近日正式開源,該模型在全球權威評測OmniBenchDoc V1.5中以92.6分綜合成績登頂榜首,在文本解析、表格結構還原、公式識別和閱讀順序預測四大核心指標上均展現出領先優勢。這一成果標志著我國在智能文檔處理領域實現了關鍵技術突破。
作為文心4.5大模型的衍生應用,PaddleOCR-VL-0.9B通過創新融合NaViT動態分辨率視覺編碼器與ERNIE-4.5-0.3B語言模型,在保持0.9B參數量的輕量化設計下,實現了精度與效率的雙重優化。實測數據顯示,該模型在A100GPU上每秒可處理1881個Token,較主流模型MinerU2.5提升14.2%,較dots.ocr模型提速達253.01%,推理性能達到行業新高度。
在核心指標方面,該模型在OmniDocBench v1.5評測中交出亮眼成績單:文本編輯距離低至0.035,公式識別的CDM指標達91.43,表格結構還原的TEDS評分高達93.52,閱讀順序預測誤差值僅0.043。這些數據充分驗證了其在處理復雜版面、手寫文檔及歷史檔案等高難度場景時的穩定性,尤其擅長識別混合了印刷體、手寫體、數學符號的多模態文檔。
該模型支持109種語言的文檔解析,覆蓋中文、英語、法語、日語、俄語、阿拉伯語及西班牙語等主流語言場景。其獨特的兩階段處理架構——首階段進行版面區域檢測與閱讀順序預測,次階段完成元素識別與結構化輸出——使模型能夠像人類一樣理解文檔版式邏輯,自動還原符合認知習慣的信息排列順序。這種設計顯著提升了復雜文檔的處理效率,在財務報表解析、科研文獻信息抽取、檔案數字化等場景中具有顯著優勢。
實際應用測試表明,PaddleOCR-VL可精準識別包含文本、手寫漢字、表格、公式及圖表的復合型文檔,在政企文檔管理、知識圖譜構建、教育領域筆記整理等場景中表現突出。其輕量化特性使得模型在邊緣計算設備上也能高效運行,為移動端文檔處理提供了新的技術路徑。









