一款名為Nano Banana 2的AI圖像生成工具近日引發(fā)科技圈關(guān)注。這款工具以預(yù)覽版形式短暫現(xiàn)身第三方平臺(tái)Media.io后迅速下架,僅有少數(shù)用戶參與測(cè)試。據(jù)參與測(cè)試者反饋,該工具在復(fù)雜場(chǎng)景構(gòu)建和細(xì)節(jié)處理方面展現(xiàn)驚人實(shí)力,其生成的網(wǎng)頁(yè)界面、瀏覽器窗口甚至完整桌面環(huán)境均達(dá)到以假亂真的程度,且全程無(wú)需參考任何原始圖像。
測(cè)試版本顯示,Nano Banana 2(內(nèi)部代號(hào)GemPix2)在真實(shí)性模擬、生成效率與交互控制三大維度實(shí)現(xiàn)突破。系統(tǒng)不僅能精準(zhǔn)渲染文字內(nèi)容,還能構(gòu)建包含多層級(jí)菜單的復(fù)雜用戶界面。在物理規(guī)律模擬測(cè)試中,該工具同時(shí)生成了精確顯示特定時(shí)間的鐘表與斟滿液體的酒杯,兩者在光影效果與材質(zhì)表現(xiàn)上均符合現(xiàn)實(shí)邏輯。更引發(fā)爭(zhēng)議的是其具備生成逼真監(jiān)控畫(huà)面的能力,業(yè)內(nèi)人士推測(cè)正式版本可能會(huì)對(duì)此功能進(jìn)行限制。
在知識(shí)推理測(cè)試環(huán)節(jié),新舊版本呈現(xiàn)明顯代際差異。初代產(chǎn)品處理數(shù)學(xué)問(wèn)題時(shí)雖能把握大致方向,但最終輸出的公式存在嚴(yán)重理解障礙;二代版本盡管存在細(xì)微誤差,卻能呈現(xiàn)結(jié)構(gòu)完整的解題過(guò)程,展現(xiàn)出基礎(chǔ)邏輯運(yùn)算能力。這種進(jìn)步在需要多步驟推理的復(fù)雜任務(wù)中表現(xiàn)尤為突出,標(biāo)志著AI圖像生成從"形式模仿"向"內(nèi)容理解"的跨越。
該工具的技術(shù)源頭可追溯至2025年8月。當(dāng)時(shí)匿名現(xiàn)身LMArena平臺(tái)的初代Nano Banana憑借圖像編輯能力迅速登頂測(cè)評(píng)榜單,兩周內(nèi)吸引超2億次圖片編輯操作,為關(guān)聯(lián)應(yīng)用帶來(lái)千萬(wàn)級(jí)新增用戶,甚至助力Gemini短暫超越ChatGPT登頂蘋(píng)果應(yīng)用商店。谷歌隨后證實(shí),這個(gè)引發(fā)轟動(dòng)的工具實(shí)為Gemini 2.5 Flash Image的測(cè)試代號(hào),其名稱(chēng)源于內(nèi)部項(xiàng)目"香蕉納米機(jī)器人"的圖像生成實(shí)驗(yàn)。
初代產(chǎn)品的核心競(jìng)爭(zhēng)力在于革命性的圖像交互方式。通過(guò)自然語(yǔ)言指令,用戶可實(shí)現(xiàn)多輪迭代編輯,系統(tǒng)能精準(zhǔn)保持角色特征一致性,徹底解決AI創(chuàng)作中常見(jiàn)的"身份漂移"問(wèn)題。其獨(dú)創(chuàng)的多圖融合技術(shù)可將不同場(chǎng)景無(wú)縫拼接,風(fēng)格遷移功能則支持跨圖像的材質(zhì)與色調(diào)轉(zhuǎn)換,這些特性使其在電商廣告領(lǐng)域獲得廣泛應(yīng)用。運(yùn)行于TPU v5架構(gòu)的優(yōu)化系統(tǒng),將單圖生成成本壓縮至0.039美元,僅為行業(yè)平均水平的十分之一。
開(kāi)發(fā)團(tuán)隊(duì)透露,當(dāng)前圖像生成技術(shù)已接近物理真實(shí)極限,未來(lái)重點(diǎn)將轉(zhuǎn)向"意圖理解"領(lǐng)域。這包括提升系統(tǒng)對(duì)模糊指令的解析能力,增強(qiáng)上下文關(guān)聯(lián)推理,以及構(gòu)建更自然的人機(jī)協(xié)作模式。谷歌正加速推進(jìn)技術(shù)整合計(jì)劃,除現(xiàn)有Gemini生態(tài)外,測(cè)試范圍已擴(kuò)展至Google Photos、視覺(jué)搜索等核心產(chǎn)品,試圖構(gòu)建覆蓋圖像生成、編輯、檢索的全鏈條AI視覺(jué)服務(wù)體系。










