科學(xué)家們近期發(fā)現(xiàn),僅通過文本數(shù)據(jù)訓(xùn)練的大型語言模型,在處理圖像任務(wù)時(shí)展現(xiàn)出驚人的能力。這一現(xiàn)象引發(fā)了學(xué)術(shù)界的廣泛關(guān)注,研究人員開始深入探究其背后的機(jī)制。他們發(fā)現(xiàn),這些從未接觸過圖像數(shù)據(jù)的模型,在配備視覺編碼器并經(jīng)過少量多模態(tài)訓(xùn)練后,竟能在視覺任務(wù)中表現(xiàn)優(yōu)異,甚至有些模型能完成從未見過的視覺推理任務(wù)。
為解開這一謎題,由meta超級(jí)智能實(shí)驗(yàn)室和牛津大學(xué)聯(lián)合組成的研究團(tuán)隊(duì)開展了系統(tǒng)性實(shí)驗(yàn)。他們精心設(shè)計(jì)了超過100個(gè)不同規(guī)模的模型,消耗50萬GPU小時(shí)計(jì)算資源,測(cè)試不同文本數(shù)據(jù)組合對(duì)模型性能的影響。實(shí)驗(yàn)發(fā)現(xiàn),語言模型在純文本訓(xùn)練中獲得的視覺能力,實(shí)際上由兩種獨(dú)立技能組成:感知工具負(fù)責(zé)識(shí)別圖像基本元素,推理工具負(fù)責(zé)分析元素間的邏輯關(guān)系。
通過分析模型在四種視覺任務(wù)上的表現(xiàn),研究人員發(fā)現(xiàn)通用視覺理解和文字識(shí)別任務(wù)存在顯著相關(guān)性,反映它們依賴同一種感知引擎。而知識(shí)密集型任務(wù)和視覺推理任務(wù)則依賴推理引擎,且這兩個(gè)引擎間的相關(guān)性極弱。這意味著模型的基礎(chǔ)視覺識(shí)別能力與視覺推理能力可獨(dú)立發(fā)展,顛覆了傳統(tǒng)認(rèn)知。
為驗(yàn)證推理能力的跨模態(tài)特性,研究團(tuán)隊(duì)讓模型解釋視覺問題的推理過程,并評(píng)估解釋的邏輯嚴(yán)密性和深度。結(jié)果顯示,代碼訓(xùn)練比例從0%增至100%時(shí),模型視覺推理解釋的邏輯嚴(yán)密性從4.52%提升至9.52%,推理深度激增六倍多。接受大量代碼訓(xùn)練的模型能詳細(xì)解釋邊界框判斷標(biāo)準(zhǔn),而未訓(xùn)練的模型只能給出簡(jiǎn)單答案。
在探索最佳數(shù)據(jù)配方的過程中,研究團(tuán)隊(duì)構(gòu)建了24種不同比例的數(shù)據(jù)組合。實(shí)驗(yàn)發(fā)現(xiàn),包含60%推理型內(nèi)容和15%視覺描述內(nèi)容的配方效果最佳。進(jìn)一步實(shí)驗(yàn)表明,隨著推理型內(nèi)容比例增加,模型視覺能力逐步提升,而語言能力略有下降。其中,包含40%網(wǎng)絡(luò)文本、35%代碼和10%數(shù)學(xué)內(nèi)容的mix6配方,在保持語言性能的同時(shí)實(shí)現(xiàn)了33.3%的視覺準(zhǔn)確率。
感知能力的培養(yǎng)則呈現(xiàn)不同特點(diǎn)。研究團(tuán)隊(duì)創(chuàng)建的多層次存在基準(zhǔn)測(cè)試顯示,在網(wǎng)絡(luò)爬蟲數(shù)據(jù)上訓(xùn)練的模型識(shí)別小到中等大小物體的能力最強(qiáng)。這歸因于網(wǎng)絡(luò)文本包含對(duì)各種視覺概念的豐富描述。實(shí)驗(yàn)還發(fā)現(xiàn),僅用25%視覺描述文本訓(xùn)練的模型,在某些復(fù)雜視覺任務(wù)上的表現(xiàn)優(yōu)于用100%視覺文本訓(xùn)練的模型,表明單純?cè)黾右曈X描述比例未必能提升深層理解能力。
為驗(yàn)證理論發(fā)現(xiàn)的實(shí)際價(jià)值,研究團(tuán)隊(duì)訓(xùn)練了兩個(gè)7B參數(shù)的大型模型,分別采用傳統(tǒng)語言友好配方和平衡配方。結(jié)果顯示,平衡配方模型在語言能力測(cè)試中的困惑度明顯優(yōu)于對(duì)照組,平均準(zhǔn)確率也有所提升。在視覺任務(wù)測(cè)試中,平衡配方模型在知識(shí)密集型任務(wù)上的表現(xiàn)提升最為顯著,驗(yàn)證了推理能力跨模態(tài)遷移的理論。
研究過程中還意外發(fā)現(xiàn)"盲視覺指令調(diào)優(yōu)"現(xiàn)象。讓模型在只有文本指令而無對(duì)應(yīng)圖像的情況下學(xué)習(xí),再正常訓(xùn)練,可提升整體視覺性能。但這種提升源于模型利用問題線索和預(yù)訓(xùn)練知識(shí)進(jìn)行推測(cè),可能導(dǎo)致實(shí)際應(yīng)用中產(chǎn)生幻覺。測(cè)試顯示,多數(shù)先進(jìn)AI系統(tǒng)在無圖像情況下會(huì)"編造"答案,引發(fā)對(duì)當(dāng)前AI評(píng)估方法的反思。
研究為柏拉圖表征假說提供了實(shí)證支持。該假說認(rèn)為,文本和圖像是現(xiàn)實(shí)世界的不同投影,強(qiáng)大模型可從任何單一投影中學(xué)習(xí)底層結(jié)構(gòu)。計(jì)算顯示,接受更多結(jié)構(gòu)化推理文本訓(xùn)練的語言模型,與視覺模型的表征相似性更高,且這種相似性與實(shí)際視覺任務(wù)表現(xiàn)一致。這表明智能可能存在普遍計(jì)算原理,反映現(xiàn)實(shí)世界本身的結(jié)構(gòu)特征。
針對(duì)常見問題,研究團(tuán)隊(duì)給出解答:大語言模型的視覺先驗(yàn)由推理先驗(yàn)和感知先驗(yàn)構(gòu)成,前者來自邏輯文本,后者來自視覺描述文本;代碼訓(xùn)練能提升視覺推理能力,因其培養(yǎng)的邏輯思維能力可遷移;培養(yǎng)視覺能力的最佳數(shù)據(jù)配方包含約60%推理型文本和15%視覺描述文本。













