百度智能云千帆平臺近日宣布,面向企業級多模態應用場景的全新視覺理解大模型Qianfan-VL正式開源。該系列模型包含3B、8B、70B三種參數規格,通過深度優化設計,在基礎通用能力與產業垂直場景中均展現出顯著優勢。目前8B與70B版本已開放免費體驗,企業用戶和開發者可在10月10日前登錄平臺進行試用。
研發團隊基于開源架構進行創新開發,依托百度自研的昆侖芯P800芯片構建了超大規模分布式計算系統。該系統支持單任務5000卡并行計算,通過優化并行策略與算子設計,顯著提升了模型處理復雜算法與海量數據的效率。這種軟硬件協同的創新模式,使模型在通用與垂類任務評測中均達到行業領先水平。
模型設計采用四階段能力增強訓練方案,在保持通用性能的同時,針對產業落地需求進行專項強化。通過構建覆蓋文檔識別、數學解題、圖表理解等核心任務的高精度數據合成管線,實現了高質量訓練數據的規模化生產。這種訓練策略使模型參數規模與性能呈現顯著正相關,70B版本在專業領域問答中展現出更強的推理能力。
在OCR全場景識別方面,模型可精準處理手寫體、數學公式、自然場景文字等多種類型,并能對卡證票據進行結構化信息提取。復雜版面文檔理解能力尤為突出,可自動解析表格圖表、實現文檔智能問答與結構化解析。基準測試顯示,其在OCRBench等專業評測中的表現隨參數規模提升持續優化,為金融、醫療等領域的文檔處理提供了高效解決方案。
8B與70B版本特有的思維鏈激活功能,通過特殊token設計支持復雜場景的組合推理。在數學解題領域,模型可實現幾何推理、公式識別與分步求解;在圖表分析方面,能完成數據趨勢預測、關聯推理及統計計算。測試數據顯示,這兩個版本在MathVista-mini等數學視覺基準測試中的準確率較主流模型有顯著提升。
該系列模型的多尺寸設計充分考慮到不同規模企業的應用需求。3B版本適用于輕量級部署場景,8B版本在性能與效率間取得平衡,70B版本則能滿足高精度要求的復雜任務。這種分級設計使教育、金融、工業等領域的用戶都能找到適配方案,有效降低了企業應用AI技術的門檻。
目前,模型已在OCR識別、文檔理解等場景形成典型應用案例。在票據處理場景中,可自動提取關鍵信息并完成結構化錄入;在學術文檔分析場景,能精準解析復雜版面并支持智能問答。研發團隊透露,后續將持續優化視頻理解、三維場景解析等能力,推動模型在更多產業領域的深度應用。











