蘋果公司正在秘密推進一款名為Manzano的新型圖像模型研發項目,該模型同時具備圖像理解與生成雙重能力。盡管目前尚未正式發布,但項目團隊已通過預印本論文披露了技術細節,并展示了部分低分辨率樣例圖像。
與傳統開源模型不同,Manzano采用創新性的混合圖像分詞器架構。其核心共享編碼器能夠同時輸出連續型標記與離散型標記,這種設計有效解決了圖像理解與生成任務間的沖突問題。項目負責人透露,該架構通過動態分配計算資源,使模型在處理復雜場景時更具靈活性。
整個系統由三大模塊構成:混合分詞器負責圖像特征提取,統一語言模型處理多模態信息融合,獨立圖像解碼器則提供三種不同分辨率的輸出方案。其中解碼器特別開發了基礎版、高清版和超清版,分別對應720P、4K及8K分辨率的圖像生成需求。
在訓練階段,研發團隊使用了規模龐大的圖文對數據集。內部測試數據顯示,Manzano在處理文字密集型圖像任務時表現突出,例如包含復雜排版的設計圖或帶有多語言文本的場景。性能評估表明,模型能力隨參數規模擴大呈現穩定提升趨勢。
蘋果方面承認,當前版本的基礎模型在綜合性能上仍落后于行業頂尖水平。但研究團隊強調,Manzano的模塊化設計使其具備快速迭代潛力,后續版本將重點優化高分辨率場景下的細節表現和計算效率。目前該項目仍處于實驗室階段,具體發布時間尚未確定。