東南亞科技企業(yè)Grab近日宣布,其自主研發(fā)的視覺(jué)大型語(yǔ)言模型在文檔處理領(lǐng)域取得突破性進(jìn)展。這款專(zhuān)為東南亞多語(yǔ)言環(huán)境設(shè)計(jì)的模型,成功解決了傳統(tǒng)技術(shù)處理非拉丁字母文檔的難題,在身份證、駕照等關(guān)鍵證件識(shí)別任務(wù)中展現(xiàn)出顯著優(yōu)勢(shì)。
作為覆蓋新加坡、馬來(lái)西亞、印尼等八個(gè)國(guó)家的超級(jí)應(yīng)用平臺(tái),Grab每日需處理海量多語(yǔ)言文檔。工程團(tuán)隊(duì)發(fā)現(xiàn),現(xiàn)有商業(yè)模型在解析東南亞語(yǔ)言時(shí)普遍存在兩大缺陷:一是字符識(shí)別錯(cuò)誤率居高不下,二是圖像處理延遲嚴(yán)重。即便開(kāi)源視覺(jué)模型在效率上表現(xiàn)優(yōu)異,但面對(duì)復(fù)雜文檔模板時(shí)仍難以保證準(zhǔn)確性,這給客戶身份驗(yàn)證等合規(guī)工作帶來(lái)巨大挑戰(zhàn)。
研發(fā)團(tuán)隊(duì)經(jīng)過(guò)技術(shù)評(píng)估,最終選定阿里巴巴云的Qwen2-VL2B模型作為基礎(chǔ)架構(gòu)。該模型具備三大核心優(yōu)勢(shì):支持東南亞多語(yǔ)言處理、可動(dòng)態(tài)適配不同分辨率圖像,且模型體積適中便于部署。為構(gòu)建專(zhuān)屬訓(xùn)練數(shù)據(jù)集,工程師們從Common Crawl開(kāi)源庫(kù)中篩選東南亞語(yǔ)言內(nèi)容,同時(shí)開(kāi)發(fā)內(nèi)部合成系統(tǒng),生成包含多樣化字體和背景的文本圖像樣本。
在模型優(yōu)化階段,團(tuán)隊(duì)采用分階段微調(diào)策略。初期通過(guò)低秩適配技術(shù)快速驗(yàn)證印尼文檔的處理效果,當(dāng)發(fā)現(xiàn)泰語(yǔ)、越南語(yǔ)等語(yǔ)言存在特殊視覺(jué)模式后,立即啟動(dòng)全參數(shù)微調(diào)。經(jīng)過(guò)數(shù)輪迭代訓(xùn)練,最終誕生的輕量化模型不僅在字符識(shí)別準(zhǔn)確率上超越主流OCR工具,其圖像處理速度更較通用模型提升40%。
這項(xiàng)技術(shù)突破已產(chǎn)生實(shí)質(zhì)性應(yīng)用價(jià)值。在馬來(lái)西亞駕照識(shí)別場(chǎng)景中,新模型將錯(cuò)誤率從18%降至3.2%;越南身份證信息提取的完整率提升至97%,較傳統(tǒng)方案提高23個(gè)百分點(diǎn)。Grab工程負(fù)責(zé)人表示,通過(guò)精準(zhǔn)篩選高質(zhì)量訓(xùn)練數(shù)據(jù),小型專(zhuān)業(yè)模型完全能夠?qū)崿F(xiàn)效率與效果的雙重突破。
目前,該模型已集成至Grab核心業(yè)務(wù)系統(tǒng),支持打車(chē)、外賣(mài)、金融等場(chǎng)景的實(shí)時(shí)文檔驗(yàn)證。研發(fā)團(tuán)隊(duì)正著手?jǐn)U展模型能力邊界,計(jì)劃開(kāi)發(fā)支持手寫(xiě)體識(shí)別、多語(yǔ)言混合文檔解析等高級(jí)功能,以應(yīng)對(duì)東南亞市場(chǎng)日益復(fù)雜的數(shù)字化需求。






