卡帕西從信息密度、表達(dá)維度和注意力機(jī)制三個(gè)層面展開論證。他指出,將文本渲染為圖像后,單個(gè)視覺塊可承載多個(gè)字符信息,而傳統(tǒng)分詞方式需為每個(gè)字符或子詞分配獨(dú)立token。在處理長文檔時(shí),這種壓縮機(jī)制能顯著降低計(jì)算資源消耗。以視覺編碼器處理為例,Vision Transformer架構(gòu)已證明其高效性,而DeepSeek-OCR的實(shí)踐更驗(yàn)證了視覺到文本轉(zhuǎn)換的高精度。
在信息表達(dá)層面,圖像輸入天然包含字體、顏色、布局等視覺元素,這些格式信息在純文本中需依賴Markdown等標(biāo)記語言實(shí)現(xiàn),既增加token數(shù)量又損失自然性。卡帕西特別提到,雙向注意力機(jī)制在圖像處理中的運(yùn)用,使模型能同時(shí)捕捉上下文信息,突破自回歸文本生成中因果注意力的局限,從而提升理解深度。
針對(duì)傳統(tǒng)分詞器的弊端,卡帕西直言其"歷史遺留問題"。他舉例說明,相同視覺字符因Unicode編碼差異可能被映射為不同token,導(dǎo)致模型對(duì)相似輸入產(chǎn)生不同響應(yīng)。若直接處理圖像,可消除這種非端到端架構(gòu)帶來的復(fù)雜性,使系統(tǒng)更加簡潔統(tǒng)一。
盡管技術(shù)可行性已獲驗(yàn)證,卡帕西也指出實(shí)踐中的不對(duì)稱性:用戶輸入可轉(zhuǎn)為圖像形式,但模型輸出仍需保持文本形態(tài),因當(dāng)前圖像生成技術(shù)尚未完全解決逼真度問題。這意味著模型架構(gòu)需同時(shí)支持視覺理解與文本生成能力,無法徹底摒棄傳統(tǒng)處理方式。
這場討論延伸至效率、統(tǒng)一性與生態(tài)兼容性等多個(gè)維度。支持者認(rèn)為,圖像輸入可統(tǒng)一文檔理解、OCR、多模態(tài)問答等任務(wù),簡化模型設(shè)計(jì);反對(duì)者則擔(dān)憂計(jì)算成本增加——雖然信息密度提升,但圖像編碼本身的算力消耗可能抵消部分收益。純文本的可編輯性與現(xiàn)有工具鏈的兼容性問題,也成為完全轉(zhuǎn)向圖像輸入的主要障礙。
DeepSeek-OCR論文的走紅,恰逢OCR技術(shù)從字符識(shí)別向文檔理解演進(jìn)的關(guān)鍵期。當(dāng)視覺模型能準(zhǔn)確解析復(fù)雜格式文本時(shí),將所有文本任務(wù)視為"視覺理解"任務(wù)在概念上成立。卡帕西以半開玩笑的方式提到抑制開發(fā)純圖像輸入聊天機(jī)器人的沖動(dòng),既表達(dá)對(duì)技術(shù)前景的期待,也暗示實(shí)際落地需克服多重挑戰(zhàn)。
產(chǎn)業(yè)界更傾向漸進(jìn)式過渡方案。混合輸入模式被視為更現(xiàn)實(shí)的選擇:在需要保留視覺格式的場景使用圖像輸入,在需要靈活編輯的場景沿用文本輸入。這種策略既能利用圖像的高密度優(yōu)勢(shì),又可維持文本處理的便利性。
卡帕西的論斷挑戰(zhàn)了文本token作為語言模型標(biāo)準(zhǔn)輸入的固有認(rèn)知,為優(yōu)化模型輸入表示提供了新視角。盡管完全實(shí)現(xiàn)尚需時(shí)日,但這一討論已推動(dòng)學(xué)界重新思考信息處理的本質(zhì),可能催生更高效、統(tǒng)一的AI架構(gòu)。











