Nano Banana Pro問世，大幅改善文字渲染並具備推理能力

圖片來源:

Google

Google於週四（11/20）發表了Nano Banana Pro（Gemini 3 Pro Image），這是一款專業級圖像生成模型，強調高畫質輸出、具備推理能力、改善文字渲染，並能處理複雜構圖。

Google在2025年8月正式推出圖像生成模型Gemini 2.5 Flash Image，內部代號為Nano Banana，可用於修復照片或生成圖像，供使用者透過Gemini App使用。上線10天內，全球用戶就利用它生成超過2億張圖片，其中最熱門的提示為生成公仔。自此，其代號「奈米香蕉」就取代了原本的Gemini Image正式名稱，連Gemini 3 Pro Image的發表，Google都直接在標題上稱它為Nano Banana Pro。

Nano Banana Pro與前一代最大的差異在於推理能力與文字品質。作為Gemini 3 Pro Image，此模型可利用Search grounding將現實世界的內容直接視覺化，包括食譜流程、植物資訊、天氣變化、歷史背景與資料圖表等。Google指出，新版模型能理解更多脈絡，使教育、科普與商業應用的圖像更貼近事實與內容邏輯。

文字渲染是此次升級的重點之一。前一代容易出現錯字或變形，Nano Banana Pro則可在圖像中生成清晰、可閱讀的多語言文字，並支援字體樣式、粗細與排版控制。模型能在海報、產品包裝、資訊圖表與介面原型中呈現段落級內容，也能將圖片中的英文翻譯成其他語言，同時保持原本版面，可用於跨市場視覺測試。

構圖與合成能力也獲得強化。Nano Banana Pro可同時處理最多14張圖片，並保持最多5個人物的光線、材質與外貌一致性，適用於情境視覺、時尚圖像、團體照與品牌概念示意。Google表示，新版模型能維持角度、陰影與表面反射的完整性，可用於將草圖轉換為產品原型或建立複雜3D構圖。

Nano Banana Pro還加入許多專業級圖像控制功能，包括局部編輯、光線調整、景深切換、焦點選擇、相機角度設定與色彩分級。使用者可切換日夜場景、重新設定前景對焦，或輸出1K、2K與4K解析度，以對應廣告、列印、簡報與社群媒體需求。

Google提出了Nano Banana Pro的使用技巧，建議在提示語中同時描述主體、構圖、動作、場景與風格，以提升畫面一致性；若需專業效果，可加入光線、鏡頭角度、景深與長寬比等參數。進行多圖合成時，建議分別註明每張圖片的角色與用途，如人物、背景或姿勢來源，有助於模型維持外觀一致並控制整體構圖。

目前Google已在多個產品上供應Nano Banana Pro。一般使用者可透過Gemini App中的Create images功能使用；開發者則可透過Gemini API、AI Studio與Vertex AI取得；企業與行銷端可在Google Ads、Google Slides與Vids中使用；Flow則提供分鏡與影片場景控制功能。不同方案具有不同的使用額度，免費用戶在用完額度後會回到前一代Nano Banana，而Google AI Plus、Pro與Ultra訂閱者可取得較完整的功能。圖片來源／Google

熱門新聞