百度智能云千帆平臺(tái)近日迎來重要突破——全新視覺理解大模型Qianfan-VL正式開源,并同步推出3B、8B、70B三個(gè)參數(shù)規(guī)模的版本。這款專為企業(yè)級(jí)多模態(tài)應(yīng)用場景設(shè)計(jì)的模型,在OCR識(shí)別、文檔理解等產(chǎn)業(yè)高頻需求領(lǐng)域?qū)崿F(xiàn)了專項(xiàng)優(yōu)化,其8B和70B版本即日起至10月10日可在千帆平臺(tái)免費(fèi)體驗(yàn)。
研發(fā)團(tuán)隊(duì)采用四階段創(chuàng)新訓(xùn)練策略,構(gòu)建了覆蓋文檔識(shí)別、數(shù)學(xué)解題等核心任務(wù)的高精度數(shù)據(jù)合成管線。基于百度自研的昆侖芯P800芯片,該模型實(shí)現(xiàn)了單任務(wù)5000卡規(guī)模的并行計(jì)算能力,在視覺理解通用能力評(píng)測中展現(xiàn)出顯著優(yōu)勢。從ScienceQA專業(yè)問答到RefCOCO多模態(tài)任務(wù),模型性能隨參數(shù)規(guī)模提升呈現(xiàn)良好Scaling趨勢,在物體識(shí)別、關(guān)聯(lián)分析等維度達(dá)到行業(yè)領(lǐng)先水平。
針對(duì)企業(yè)級(jí)應(yīng)用痛點(diǎn),模型特別強(qiáng)化了三大核心能力:其一,提供3B、8B、70B多尺寸選擇,滿足不同規(guī)模企業(yè)的部署需求;其二,8B和70B版本通過特殊token激活思維鏈功能,可處理復(fù)雜圖表分析、視覺推理等場景;其三,在OCR全場景識(shí)別方面,不僅能精準(zhǔn)解析手寫體、數(shù)學(xué)公式,還能對(duì)卡證票據(jù)進(jìn)行結(jié)構(gòu)化提取。在文檔理解領(lǐng)域,模型可自動(dòng)分析版面元素,實(shí)現(xiàn)表格圖表解析與智能問答。
基準(zhǔn)測試數(shù)據(jù)顯示,Qianfan-VL在數(shù)學(xué)解題領(lǐng)域表現(xiàn)尤為突出。8B和70B版本通過融合視覺與文本推理數(shù)據(jù),在MathVista-mini等測試中取得優(yōu)異成績,可實(shí)現(xiàn)幾何推理、公式識(shí)別等復(fù)雜任務(wù)的分步求解。在文檔處理場景,模型在OCRBench等專業(yè)測試中的準(zhǔn)確率隨參數(shù)規(guī)模提升持續(xù)優(yōu)化,為金融、教育等行業(yè)的文檔智能化提供了高精度解決方案。
技術(shù)架構(gòu)層面,研發(fā)團(tuán)隊(duì)構(gòu)建了業(yè)界領(lǐng)先的分布式計(jì)算系統(tǒng)。通過創(chuàng)新的并行策略與算子優(yōu)化,昆侖芯P800芯片組成功支撐起超大規(guī)模模型訓(xùn)練,使數(shù)據(jù)處理效率得到顯著提升。這種軟硬協(xié)同的創(chuàng)新模式,不僅優(yōu)化了計(jì)算資源利用率,更為模型在垂類任務(wù)中的性能突破奠定了基礎(chǔ)。
目前,該模型已在OCR識(shí)別、文檔解析等場景形成典型應(yīng)用案例。除已展示的票據(jù)結(jié)構(gòu)化提取、復(fù)雜版面分析等功能外,模型在圖表數(shù)據(jù)可視化、視頻內(nèi)容理解等延伸領(lǐng)域也展現(xiàn)出良好適應(yīng)性。隨著開源版本的發(fā)布,百度智能云千帆平臺(tái)正通過技術(shù)賦能推動(dòng)AI在產(chǎn)業(yè)界的深度落地。











