在計算機科學領域,如何讓AI像人類一樣自然理解并檢索包含文字、圖片等多種形式的混合內容,一直是備受關注的難題。近日,一支來自國內高校的研究團隊在該問題上取得重要進展,其研發的AI系統展現出處理復雜信息的能力,為智能信息檢索帶來新思路。
傳統AI系統在面對混合內容時存在明顯短板。多數系統要么將文字與圖片分開處理,如同讓人閉眼讀書、捂耳看畫,難以把握整體信息;要么僅用文字搜索圖片,如同憑聲音找電影,常遺漏關鍵內容。更重要的是,這些系統忽略了文字與圖片在同一頁面中的空間位置和邏輯聯系,導致對內容完整含義的理解出現偏差。
為攻克這一難題,研究團隊開發了名為Nyx的AI系統。該系統如同一位“超級圖書管理員”,不僅能解讀文字,還能“看懂”圖片,更能理解圖文混合時表達的完整信息。這種能力被團隊稱為“通用檢索增強生成”,旨在滿足現實世界中常見且復雜的信息處理需求。
構建這樣一個系統,首要挑戰是缺乏合適的訓練材料。現實中的網頁內容豐富多樣,但要讓AI學會處理,需要大量標注好的問答對作為“教材”。為此,團隊設計了一套四步驟的自動化流程,打造了NyxQA數據集。
第一步是從真實網頁中篩選內容。團隊從OBELICS數據集中選取真實網頁文檔,這些文檔包含各種圖文組合方式。他們將每個文檔切分成不超過200個文字標記的片段,同時保持語義完整,最終構建了包含46741個文檔片段的混合模態語料庫。該語料庫真實反映了網絡內容的多樣性,涵蓋純文字、單獨圖片、圖文配對及圖文交錯等復雜格式。
第二步是生成問答對。團隊從語料庫中挑選10000個代表性片段,使用視覺語言模型作為“AI老師”,為每個片段生成最多五個問答對。對于純文字文檔,AI老師專注于文本內容提問;對于含圖片的文檔,則特別關注視覺信息。為確保問題準確性,團隊設計了特殊標記系統,明確圖片與問題的對應關系。
第三步是質量把控。團隊設計了三重過濾機制:錯誤過濾階段清除明顯錯誤,如依賴上下文的問題或圖片標簽錯誤;問答精煉階段優化表達,去除冗余信息,提高清晰度;選項生成階段為每個問題生成三個合理但錯誤的干擾選項,提升AI的判斷精確性。經過處理,最終獲得了高質量的NyxQA數據集。
第四步是“硬核”負樣本挖掘。為讓Nyx學會精準檢索,團隊對每個問題確定正確文檔作為“正樣本”,再從語料庫中搜索最相關的前10個文檔,從中選取5個作為“硬負樣本”。這些樣本與問題高度相關但非正確答案,通過對比學習,Nyx學會了在海量信息中精準定位關鍵內容。
Nyx的訓練采用兩階段策略。第一階段是預訓練,團隊將NyxQA數據集與多個公開檢索數據集結合,進行大規模對比學習訓練,并融入Matryoshka表示學習技術,平衡檢索效果與計算效率。同時,為增強文本理解能力,團隊還加入了純文本數據集。第二階段是監督微調,團隊設計了一種基于視覺語言模型反饋的微調方法。對于每個查詢,先使用預訓練的Nyx檢索候選文檔,再輸入視覺語言模型生成答案,根據答案質量確定正負樣本,使檢索器更好配合生成模型。
Nyx的架構基于成熟的視覺語言模型改造而成。系統將不同模態內容映射到同一向量空間,使相似內容彼此靠近。為處理不同輸入,團隊在查詢前添加指令字符串,確保統一處理圖文混合內容。訓練目標采用InfoNCE損失函數配合Matryoshka表示學習,提升模型性能。
為驗證Nyx的性能,團隊進行了全面實驗。在文本檢索任務中,盡管對比模型擁有龐大參數,Nyx仍憑借輕量級架構取得顯著優勢。在多模態任務中,Nyx的表現更為突出,在多個數據集上實現了性能躍升。統計測試結果也證明了各改進步驟的有效性。
深入分析發現,訓練數據規模與模型性能呈對數線性關系,繼續增加高質量數據仍能提升性能。增加輸入文檔數量可提升檢索器表現,但收益遞減,Nyx在各種設置下均表現優異。Nyx還展現出跨生成器泛化能力,且Matryoshka表示學習技術使其能適應不同資源約束環境。
通過具體案例對比,Nyx的優勢更加明顯。在一個多模態問答案例中,對比模型或遺漏關鍵信息,或缺乏視覺證據,而Nyx不僅識別了查詢實體,還檢索到包含關鍵圖片的文檔,為生成準確答案提供了充分依據。
研究還發現,生成模型“偏好”的文檔可能與人工標注的黃金文檔不同。通過反饋學習,Nyx發現了更能幫助生成正確答案的文檔,這一發現挑戰了傳統檢索評估方式,提示應更關注檢索結果的實用性。
目前,研究團隊已將Nyx的代碼開源,為開發者和研究人員提供了基礎。這項技術有望在未來集成到搜索引擎、智能助手等應用中,讓信息獲取變得更加高效便捷。











