在廣州大學(xué)舉辦的一場(chǎng)重要學(xué)術(shù)活動(dòng)中,一項(xiàng)突破性成果引發(fā)廣泛關(guān)注。粵語(yǔ)語(yǔ)料庫(kù)建設(shè)與大模型評(píng)測(cè)實(shí)驗(yàn)室正式推出AI-DimSum多模態(tài)粵語(yǔ)語(yǔ)料庫(kù)平臺(tái),為全球上億粵語(yǔ)使用者的數(shù)字化發(fā)展開辟新路徑。這一創(chuàng)新成果針對(duì)粵語(yǔ)在網(wǎng)絡(luò)空間面臨的資源稀缺問(wèn)題,構(gòu)建了覆蓋語(yǔ)音、文字、影像的完整數(shù)據(jù)生態(tài)體系。
據(jù)項(xiàng)目負(fù)責(zé)人齊佳音教授介紹,該平臺(tái)以服務(wù)數(shù)字中文戰(zhàn)略和粵港澳大灣區(qū)文化數(shù)字化建設(shè)為目標(biāo),通過(guò)標(biāo)準(zhǔn)化采集流程、可追溯數(shù)據(jù)管理和智能化服務(wù)接口,形成具有嶺南文化特色的AI應(yīng)用基礎(chǔ)設(shè)施。平臺(tái)突破傳統(tǒng)語(yǔ)言資源庫(kù)的單一功能,將數(shù)據(jù)采集、標(biāo)注加工、模型適配等環(huán)節(jié)整合為模塊化系統(tǒng),實(shí)現(xiàn)從原始素材到智能應(yīng)用的完整閉環(huán)。
在數(shù)據(jù)儲(chǔ)備方面,平臺(tái)已形成多維度的資源矩陣。文字庫(kù)收錄超過(guò)百萬(wàn)字的新聞報(bào)道、文學(xué)作品等文本資料;語(yǔ)音庫(kù)完成3000小時(shí)高保真語(yǔ)音標(biāo)注,同步積累超1TB音視頻素材;影視庫(kù)特別收錄《功夫熊貓》《大圣歸來(lái)》等熱門作品的粵語(yǔ)版本,并配備專業(yè)字幕標(biāo)注。更值得關(guān)注的是,平臺(tái)開發(fā)了包含20萬(wàn)道題目的評(píng)測(cè)體系,可對(duì)粵語(yǔ)AI模型進(jìn)行多維度安全評(píng)估。
這個(gè)由七個(gè)子系統(tǒng)構(gòu)成的智能平臺(tái),創(chuàng)新性地引入確權(quán)檢索機(jī)制和質(zhì)量評(píng)估模塊。通過(guò)語(yǔ)料采集、智能標(biāo)注、模型對(duì)接、版權(quán)管理等功能的有機(jī)整合,既保障數(shù)據(jù)資源的合法流通,又提升AI訓(xùn)練效率。應(yīng)用商店模塊的設(shè)立,則為開發(fā)者提供了便捷的模型調(diào)用和成果發(fā)布渠道,形成完整的產(chǎn)業(yè)生態(tài)鏈。
業(yè)內(nèi)專家指出,AI-DimSum平臺(tái)的推出不僅解決了粵語(yǔ)數(shù)字化發(fā)展的基礎(chǔ)設(shè)施難題,更通過(guò)海量?jī)?yōu)質(zhì)語(yǔ)料的積累,顯著增強(qiáng)粵語(yǔ)在人工智能時(shí)代的表達(dá)能力和文化傳播力。這種將語(yǔ)言資源保護(hù)與數(shù)字技術(shù)創(chuàng)新相結(jié)合的模式,為其他方言的數(shù)字化發(fā)展提供了可復(fù)制的解決方案。











