原本,小雷以為今年下半年AI圈子的熱鬧,也就是那樣了。
閉源這邊,由Gemini 3 Pro驅動的Nano-Banana Pro,幾乎改變了大家對于平面設計的認知;開源這邊,Flux 2.0的突然開源,也讓普通人能夠自行部署的圖像生成效果大大提升,只要優化做得好,人人都能跑出像模像樣的圖。
那時候同事還跟我打賭,說這兩款大模型的風潮,最起碼能領跑個半年。
結果沒想到,打臉來得這么快。
就在這兩天,阿里的通義千問團隊突然甩出了一張王炸——Z-image,上線即登頂開源社區熱門榜第一位。
在這組圖片中,只有Nano-Banana Pro能夠還原出紀錄片拍攝的界面和質感。
至于Z-image和豆包,他倆在這張圖片上的表現其實相差無幾,但是Z-image圖片的一致性則明顯有點偏高,多次反復嘗試,在相同參數下得出來的結果都是極為相似的,根據網友分析,可能是內置參數帶來的影響。
這組圖很有意思,可以看出,在更新迭代后,Nano-Banana Pro應對一般的中文嵌入已經沒啥問題了。
論細節和光影的話,這我覺得大家都在伯仲之間。
既然單格圖片問題不大,那么多格圖片教程又如何呢?
Prompt:手賬風格,出一個番茄炒蛋的制作步驟教程圖,步驟說明要中文,落款是##。
這一對比,差距馬上就出來了,只有Nano-Banana Pro知道兩位角色,構圖也很有意思,豆包雖然沒有洛天依的概念,但是起碼還有個構圖的優勢,Z-Image就是根本不知道在干些什么了。
只能說,在知識量這塊,Z-Image確實還是比不上閉源模型。
至于圖生圖,或者圖片編輯之類的能力,目前開源的Z-Image-Turbo是沒有的,咱們還是等等Z-Image-Edit吧。
評測總結:
堪稱圖片AIGC開源界扛把子?
測完這幾輪,小雷心里的評價大概有了譜。
Z-image強嗎?強。
在中文語境的理解、在單張圖片的審美、以及最重要的——在硬件資源的利用率上,它簡直是當下開源界的T0級別。
雖然在復雜推理和精準編輯上,它還打不過Nano-Banana Pro這樣的閉源大佬,目前也缺失了圖片編輯相關的能力,但在90%的日常使用場景里,它已經能做到“夠用”甚至“好用”。
這對于那些想嘗試AIGC的中小企業,或者是像我們這種想在本地搞搞創作的個人用戶來說,意義太大了。
而且別忘了,它是開源的。
這意味著什么?意味著明天可能就會有大神在它的基礎上,訓練出專門畫二次元的、專門畫建筑設計的、專門做電商海報的各種微調模型。
就像當年的安卓手機一樣,一開始可能不如蘋果流暢,但架不住玩的人多、改的人多,生態一旦起來了,那爆發力是驚人的。
所以,如果你問小雷:Z-image值得折騰嗎?
我的回答是:只要你有張顯卡,哪怕是入門級的,都值得下下來玩玩。
畢竟,不用花錢,不用買昂貴的算力,就能在自己硬盤里養一個隨叫隨到的畫手,這種把技術握在自己手里的感覺,可是那些在線生成平臺給不了的。
而且按照阿里這個“卷”法,我有預感,明年這個時候,我們可能就能在手機上跑這種級別的模型了。








