蘋果公司正在秘密開發一款名為Manzano的新型多模態圖像模型,該模型將圖像理解與生成能力整合于同一架構中。這一突破性設計旨在解決當前開源模型普遍存在的功能割裂問題——多數系統只能專注于分析或創作中的單一方向,而無法同時兼顧兩者。
研發團隊在預印本論文中披露,現有技術路線存在根本性矛盾:連續數據流更適合語義解析,離散符號系統則擅長內容生成。當模型同時處理兩類任務時,不同工具鏈之間的沖突會導致性能下降。蘋果通過創新性的混合分詞器架構,成功化解了這一技術瓶頸。
該模型的核心創新在于共享編碼器設計。系統在處理圖像時,會同步輸出兩種標記類型:連續浮點標記用于深度理解任務,離散分類標記支持創意生成。這種雙重標記機制使模型在文檔解析、圖表分析等文字密集型場景中表現突出,在內部測試的ScienceQA等基準測試中,300億參數版本創造了新的成績紀錄。
架構設計方面,Manzano采用三段式結構:前端混合分詞器負責數據預處理,中間統一語言模型進行多模態推理,后端獨立解碼器完成圖像輸出。蘋果特別開發了9億、17.5億和35.2億三種參數規模的解碼器,支持從256像素到2048像素的分辨率輸出,滿足不同應用場景需求。
訓練過程采用三階段漸進式策略,共消耗23億對圖文訓練樣本和10億對文本圖像樣本,累計處理1.6萬億標記。值得注意的是,訓練數據中包含來自DALL-E3和ShareGPT-4o等模型的合成數據,這種跨系統數據融合策略顯著提升了模型的泛化能力。
性能對比測試顯示,Manzano在多模態綜合能力上已接近商業系統水平。在30億參數規模下,與專業系統的差距控制在1分以內。圖像生成測試中,模型展現出復雜指令執行、風格遷移、多圖層合成等高級能力,特別是在包含大量文本的圖像場景中表現優異。
模塊化設計是該系統的另一大亮點。各組件可獨立升級優化,這種靈活性使模型能快速吸收計算機視覺、自然語言處理等不同領域的研究成果。蘋果工程師透露,這種設計為未來多模態AI的演進提供了可擴展的技術框架。
盡管取得技術突破,蘋果在基礎模型領域仍面臨挑戰。當前系統整體性能與行業領先者存在差距,即便在新一代端側AI框架部署后,iOS 26的Apple Intelligence仍計劃集成OpenAI GPT-5。Manzano的推出更多是技術儲備的展示,其對外部模型的替代效果仍有待后續版本驗證。