由中國科學(xué)院自動化研究所與武漢人工智能研究院共同研發(fā)的紫東太初4.0多模態(tài)推理大模型正式亮相。這款自2021年首次面世后,歷經(jīng)四次技術(shù)迭代的智能系統(tǒng),已從基礎(chǔ)文本處理能力升級為具備復(fù)雜場景深度推理能力的多模態(tài)平臺,標(biāo)志著人工智能向"類人思考"方向邁出關(guān)鍵一步。
據(jù)項目負(fù)責(zé)人王金橋介紹,最新版本突破了傳統(tǒng)模型單一模態(tài)的局限,通過構(gòu)建"視覺-語言-動作"的跨模態(tài)理解框架,實現(xiàn)了對動態(tài)場景的實時解析。在醫(yī)療場景中,當(dāng)用戶提出"預(yù)約呼吸科門診"的語音指令時,系統(tǒng)不僅能識別語義需求,還能結(jié)合癥狀描述自動匹配科室分類,并完成掛號平臺的操作流程。這種"感知-理解-執(zhí)行"的閉環(huán)能力,使其在180分鐘長視頻內(nèi)容分析中,可精準(zhǔn)定位關(guān)鍵片段并生成結(jié)構(gòu)化摘要。
技術(shù)層面,紫東太初4.0創(chuàng)新性地引入"細(xì)粒度語義解析"機(jī)制,使模型在處理多模態(tài)數(shù)據(jù)時,能像人類一樣建立多層次關(guān)聯(lián)。例如在自動駕駛測試中,系統(tǒng)通過攝像頭捕捉的實時畫面,結(jié)合語音指令中的空間方位信息,可準(zhǔn)確執(zhí)行"打開右側(cè)車窗"等物理操作。這種突破性進(jìn)展源于團(tuán)隊研發(fā)的動態(tài)注意力分配算法,使模型能根據(jù)任務(wù)復(fù)雜度自動調(diào)整認(rèn)知資源分配。
目前該技術(shù)已在多個領(lǐng)域展開產(chǎn)業(yè)化應(yīng)用:在智慧醫(yī)療領(lǐng)域,為三甲醫(yī)院提供智能導(dǎo)診和影像分析服務(wù);在具身智能領(lǐng)域,與新能源汽車企業(yè)合作開發(fā)車載交互系統(tǒng);在低空經(jīng)濟(jì)領(lǐng)域,為無人機(jī)物流提供實時路徑規(guī)劃和環(huán)境感知支持。研發(fā)團(tuán)隊透露,其定制化解決方案已覆蓋城市交通管理、工業(yè)質(zhì)檢等20余個細(xì)分場景,形成從算法研發(fā)到場景落地的完整技術(shù)鏈條。











