谷歌旗下圖像生成模型Nano Banana正式開放API接口,開發者可通過Gemini API將其嵌入自有產品,企業用戶也可實現批量調用以支持大規模內容生產。對于偏好簡化操作的用戶,Google AI Studio平臺仍提供直接使用渠道,用戶可在Build板塊輸入指令,快速生成定制化應用。
此次更新帶來兩項核心功能升級。首先是畫幅比例自定義,用戶可在AI Studio中預設16:9、9:16、4:3、3:2等十余種寬高比,模型將嚴格遵循該比例生成圖像。這種設計覆蓋了橫屏電影、豎版短視頻、方形社交封面等多元場景需求,例如16:9比例適合呈現風光大片的沉浸感,9:16比例則適配手機豎屏的視覺沖擊力。
第二項功能為純圖像輸出模式,該模式僅返回視覺內容,不附帶文本描述。此舉可減少token消耗,避免上下文干擾,尤其適用于電商展示、設計工具等需要實時預覽的場景。兩項功能均指向內容創作者的實際需求,顯示出谷歌推動模型從技術工具向實用解決方案轉型的意圖。
關于API定價,官方披露每百萬圖像輸出token收費30美元,單張最大尺寸1024x1024像素的圖像約消耗1290個token,折合每張0.039美元。對比Gemini 2.5 Flash文本模式,圖像生成成本為其12倍。開發者可通過谷歌開發者手冊獲取詳細接入指南。
實測顯示,不同畫幅比例在場景適配上存在顯著差異。以4:3比例為例,該比例因早期電視標準屬性,能營造獨特的懷舊氛圍,適合呈現夢核風格的都市夜景;而3:2比例接近人眼視覺,在風光攝影中可靈活展現山川或天空,后期裁切空間較大。用戶輸入具體參數后,模型可生成符合設備特性的專業級圖像,例如使用Nikon Z7 II相機搭配廣角鏡頭拍攝的16:9電影級畫面。
市場動態方面,盡管Reddit社區近期因Sora邀請碼交易引發關注,單條價格一度超過10美元,但Gemini仍穩居蘋果App Store AI應用榜首。短視頻領域涌現的GPT類應用尚未對其地位構成實質性威脅。
相關技術文檔可通過谷歌開發者平臺查閱,具體包括API定價說明、功能使用規范及接入教程。











