阿里Qwen團(tuán)隊(duì)近日宣布,正式推出新一代原生全模態(tài)大模型Qwen3-Omni-Flash-2025-12-01。這款基于Qwen3-Omni升級的模型,實(shí)現(xiàn)了文本、圖像、音視頻等多種模態(tài)的無縫輸入與實(shí)時流式輸出,標(biāo)志著多模態(tài)交互技術(shù)邁入全新階段。
在交互體驗(yàn)層面,新模型重點(diǎn)優(yōu)化了多模態(tài)融合能力。通過實(shí)時流式響應(yīng)技術(shù),用戶輸入的文本、圖像、音視頻信息可同步轉(zhuǎn)化為高質(zhì)量文本與自然語音輸出。針對語音交互場景,模型突破了傳統(tǒng)語音生成機(jī)械呆板的局限,能夠根據(jù)文本內(nèi)容自適應(yīng)調(diào)整語速、停頓與韻律,語音自然度與擬人化程度接近真人水平,顯著提升了對話流暢性。
系統(tǒng)提示控制能力的升級成為本次更新的核心亮點(diǎn)。研發(fā)團(tuán)隊(duì)全面開放了System Prompt自定義權(quán)限,用戶可通過精細(xì)化參數(shù)設(shè)置調(diào)控模型行為模式。無論是設(shè)定特定人設(shè)風(fēng)格如“甜妹”“御姐”,還是調(diào)整口語化表達(dá)偏好與回復(fù)長度,模型均能精準(zhǔn)響應(yīng)。這一功能為個性化交互場景提供了技術(shù)支撐,例如虛擬主播、智能客服等領(lǐng)域可實(shí)現(xiàn)更靈活的角色扮演。
跨語言支持方面,模型展現(xiàn)出強(qiáng)大的全球化服務(wù)能力。支持119種文本語言交互、19種語音識別語言及10種語音合成語言,確保在多語言場景下保持響應(yīng)準(zhǔn)確性與一致性。這一特性為跨國企業(yè)、國際教育等場景提供了高效解決方案,有效降低了語言障礙帶來的溝通成本。
客觀性能指標(biāo)顯示,新模型在多項(xiàng)基準(zhǔn)測試中取得突破性進(jìn)展。邏輯推理任務(wù)(ZebraLogic)得分提升5.6,代碼生成(LiveCodeBench-v6)提升9.3,多學(xué)科視覺問答(MMMU)提升4.7。這些數(shù)據(jù)表明,模型不僅在圖像視頻內(nèi)容理解上更加精準(zhǔn),在復(fù)雜指令遵循與深度邏輯分析方面也達(dá)到行業(yè)領(lǐng)先水平。
針對口語化場景的“降智”痛點(diǎn),新模型通過增強(qiáng)音視頻指令理解能力,顯著提升了多輪對話的穩(wěn)定性與連貫性。在復(fù)雜語境下,模型能夠準(zhǔn)確捕捉用戶意圖,避免語義歧義,為智能助手、教育輔導(dǎo)等場景提供了更可靠的交互基礎(chǔ)。此次升級標(biāo)志著多模態(tài)大模型從技術(shù)探索向?qū)嵱没涞剡~出關(guān)鍵一步。








