百度智能云千帆平臺(tái)近日宣布,其自主研發(fā)的全新視覺(jué)理解大模型Qianfan-VL正式開(kāi)源,并同步推出3B、8B、70B三個(gè)參數(shù)規(guī)模的版本。該系列模型專為企業(yè)級(jí)多模態(tài)應(yīng)用場(chǎng)景設(shè)計(jì),在基礎(chǔ)通用能力的基礎(chǔ)上,針對(duì)OCR識(shí)別、教育垂直領(lǐng)域等高頻需求進(jìn)行了深度優(yōu)化,旨在為不同規(guī)模的企業(yè)和開(kāi)發(fā)者提供更高效的視覺(jué)理解解決方案。
Qianfan-VL系列模型的開(kāi)發(fā)依托于百度自研的昆侖芯P800芯片,該芯片為模型提供了強(qiáng)大的算力支持,能夠高效處理海量數(shù)據(jù)與復(fù)雜算法。模型研發(fā)團(tuán)隊(duì)基于開(kāi)源模型進(jìn)行二次開(kāi)發(fā),并在昆侖芯P800上完成了全流程計(jì)算任務(wù)。這一技術(shù)組合不僅優(yōu)化了計(jì)算效率,還使模型在通用和垂類任務(wù)評(píng)測(cè)中達(dá)到了行業(yè)領(lǐng)先水平。
在模型設(shè)計(jì)上,Qianfan-VL采用了先進(jìn)的多模態(tài)架構(gòu),并通過(guò)持續(xù)預(yù)訓(xùn)練和三大技術(shù)創(chuàng)新實(shí)現(xiàn)了領(lǐng)域增強(qiáng)的通用視覺(jué)-語(yǔ)言能力。其核心訓(xùn)練方案包括創(chuàng)新的四階段策略,在保持通用能力的同時(shí),顯著提升了領(lǐng)域特定任務(wù)的表現(xiàn)。團(tuán)隊(duì)構(gòu)建了面向多模態(tài)任務(wù)的大規(guī)模數(shù)據(jù)合成管線,覆蓋文檔識(shí)別、數(shù)學(xué)解題、圖表理解等核心任務(wù),為模型訓(xùn)練提供了高質(zhì)量的數(shù)據(jù)支持。
Qianfan-VL系列模型具有三大顯著特點(diǎn)。首先,多尺寸版本設(shè)計(jì)滿足了不同場(chǎng)景的需求,3B、8B、70B三種規(guī)格可適配從輕量級(jí)到企業(yè)級(jí)的各類應(yīng)用。其次,8B和70B模型支持通過(guò)特殊token激活思維鏈能力,能夠處理復(fù)雜圖表理解、視覺(jué)推理、數(shù)學(xué)解題等任務(wù)。最后,模型在OCR全場(chǎng)景識(shí)別和復(fù)雜版面文檔理解方面表現(xiàn)突出,可精準(zhǔn)識(shí)別手寫體、數(shù)學(xué)公式、自然場(chǎng)景文字,并實(shí)現(xiàn)文檔智能問(wèn)答與結(jié)構(gòu)化解析。
在性能評(píng)測(cè)中,Qianfan-VL系列模型展現(xiàn)了卓越的實(shí)力。通用能力基準(zhǔn)測(cè)試顯示,隨著參數(shù)規(guī)模的增加,模型在視覺(jué)理解、專業(yè)領(lǐng)域問(wèn)答等任務(wù)中的表現(xiàn)顯著提升,尤其在ScienceQA等專業(yè)問(wèn)答測(cè)試中表現(xiàn)突出。在OCR與文檔理解領(lǐng)域,模型在OCRBench等基準(zhǔn)測(cè)試中成績(jī)優(yōu)異,能夠自動(dòng)分析版面元素,精準(zhǔn)解析表格和圖表。數(shù)學(xué)解題方面,8B和70B模型在MathVista-mini、MathVision等測(cè)試中表現(xiàn)亮眼,可實(shí)現(xiàn)幾何推理、公式識(shí)別和分步求解。
實(shí)際應(yīng)用案例進(jìn)一步驗(yàn)證了Qianfan-VL的實(shí)用性。在OCR識(shí)別場(chǎng)景中,模型可精準(zhǔn)提取卡證票據(jù)信息并完成結(jié)構(gòu)化處理;在數(shù)學(xué)推理場(chǎng)景中,能夠從復(fù)雜圖表中提取關(guān)鍵信息并進(jìn)行數(shù)據(jù)分析;在文檔理解場(chǎng)景中,可自動(dòng)解析表格和圖表,實(shí)現(xiàn)智能問(wèn)答。模型還可應(yīng)用于圖表分析、視頻理解等領(lǐng)域,展現(xiàn)出廣泛的適應(yīng)性。
目前,Qianfan-VL系列模型已全面開(kāi)源。即日起至10月10日,用戶可在百度智能云千帆平臺(tái)免費(fèi)體驗(yàn)8B和70B版本。模型的相關(guān)資源包括Blog、GitHub主頁(yè)、Hugging Face頁(yè)面以及技術(shù)報(bào)告,用戶可通過(guò)登錄平臺(tái)選擇Qianfan-VL-8B或70B進(jìn)行在線測(cè)試,或訪問(wèn)GitHub獲取詳細(xì)技術(shù)文檔。











