How to Use the Nano Banana Pro(Gemini 3 Pro Image) API ?

25 ноября25 ноя

14 мин

Nano Banana Pro — официально Gemini 3 Pro Image — новая студийная модель генерации и редактирования изображений от Google/DeepMind, которая сочетает продвинутое мультимодальное рассуждение, высокоточное отображение текста внутри изображения, композицию из нескольких изображений и студийные инструменты управления творчеством. Nano Banana Pro — это новейшая модель Google для генерации и редактирования изображений (релиз “Gemini 3 Pro Image”), предназначенная для создания высококачественных, контекстно корректных изображений и встраиваемого текста в изображениях с качеством студии до 4K. Модель является преемником ранних Nano Banana (Gemini 2.5 Flash Image / “Nano Banana”) и имеет улучшенное рассуждение, привязку к поиску (Search grounding для фактической точности), лучшее отображение текста и более мощные локальные инструменты редактирования. Модель доступна в приложении Gemini для интерактивного использования, а для программного доступа нужно выбрать соответствующий идентификатор модел

Оглавление

Как пользоваться API Nano Banana Pro
Что такое Nano Banana Pro и почему это важно?
Почему это важно:

Как пользоваться API Nano Banana Pro

Что такое Nano Banana Pro и почему это важно?

Nano Banana Pro — это новейшая модель Google для генерации и редактирования изображений (релиз “Gemini 3 Pro Image”), предназначенная для создания высококачественных, контекстно корректных изображений и встраиваемого текста в изображениях с качеством студии до 4K. Модель является преемником ранних Nano Banana (Gemini 2.5 Flash Image / “Nano Banana”) и имеет улучшенное рассуждение, привязку к поиску (Search grounding для фактической точности), лучшее отображение текста и более мощные локальные инструменты редактирования. Модель доступна в приложении Gemini для интерактивного использования, а для программного доступа нужно выбрать соответствующий идентификатор модели (gemini-3-pro-image-preview или стабильный эквивалент).

Почему это важно:

Nano Banana Pro создан не только для «красивых картинок», но и для визуализации информации — инфографики, снимков, основанных на данных (погода, спорт), плакатов с большим объемом текста, макетов продуктов и многокадровых фьюжнов (до 14 входных изображений с сохранением согласованности персонажей для до 5 людей). Для дизайнеров, продуктовых команд и разработчиков сочетание точности, текста внутри изображения и программного доступа открывает производственные рабочие процессы, которые ранее было трудно автоматизировать.

Какие функции открывает API?

Обычно разработчикам доступны следующие возможности:

Текст → изображение (генерация за один шаг или многошаговые «thinking» композиции).
Редактирование изображений (локальные маски, инпейтинг, изменения стиля).
Слияние нескольких изображений (multi-image fusion).
Расширенные параметры запроса: разрешение, соотношение сторон, шаги постобработки и трассировки «композиционных мыслей» для отладки/просмотра в режиме превью.

Основные новации и функции Nano Banana Pro

Бóльшая способность к рассуждению о содержимом

Использует стек рассуждений Gemini 3 Pro для интерпретации сложных многошаговых визуальных инструкций (например, «создать 5-шаговую инфографику из этого набора данных и добавить двуязычную подпись»). API открывает механизм «Thinking», который может генерировать промежуточные композиции для уточнения финального результата.

Почему это важно: вместо одной проходной трансформации prompt → пиксели, модель выполняет внутренний «думательный» процесс, который уточняет композицию и может вызывать внешние инструменты (например, Google Search) для фактической привязки (точные подписи диаграмм, локальные знаки и т.п.). Это приводит к более не только эстетичным, но и семантически корректным изображениям для инфографики, диаграмм и макетов продуктов.

Как это достигается: “Thinking” — контролируемый внутренний проход рассуждения/композиции, где модель генерирует промежуточные визуалы и следы рассуждений перед финальным изображением. API указывает, что модель может создать до двух промежуточных кадров, а финальное изображение — последняя стадия этой цепочки. В продакшне это помогает с композицией, размещением текста и решением по верстке.

Более точное отображение текста

Значительно улучшена читаемость и локализация текста внутри изображения (меню, плакаты, диаграммы). Nano Banana Pro показывает новые высоты в рендеринге текста на изображениях:

Текст внутри изображений четкий, разборчивый и правильно написан;
Поддерживает многоязычную генерацию (включая китайский, японский, корейский, арабский и т.д.);
Позволяет вставлять длинные абзацы или многострочные описания прямо в изображение;
Доступна автоматическая трансляция и локализация.

Почему это важно: традиционные модели изображений испытывали трудности с рендерингом читаемого, аккуратно выровненного текста. Nano Banana Pro оптимизирована для надежного отображения текста и локализации (например, перевод с сохранением компоновки), что открывает реальные творческие сценарии, такие как плакаты, упаковка или многоязычная реклама.

Как это достигается: улучшения рендеринга текста происходят из базовой мультимодальной архитектуры и обучения на датасетах с акцентом на примеры «текст в изображении», в сочетании с целевыми наборами оценок (человеческие оценки и регрессионные наборы). Модель учится согласовывать форму глифов, шрифты и ограничения по компоновке, чтобы производить читаемый, локализованный текст внутри изображений — хотя мелкий текст и очень плотные абзацы все еще могут быть источником ошибок.

Повышенная визуальная согласованность и fidelity

Студийные управления (освещение, фокус, угол камеры, калибровка цвета) и мульти-изображенная композиция (до 14 референс-изображений с особыми допусками для нескольких людей) помогают сохранять согласованность персонажей (сохранять одного и того же человека/персонажа между редактированиями) и брендовой идентичности по всем активам. Модель поддерживает нативные выходы 1K/2K/4K.

Почему это важно: маркетинговые и развлекательные рабочие процессы требуют согласованности персонажей между кадрами и правками. Модель может поддерживать внешнее сходство для до 5 человек и объединять до 14 референс-изображений в одну композицию, одновременно производя Sketch → 3D Render. Это полезно для рекламных креативов, упаковки или мультикадрового сторителлинга.

Как это достигается: вход модели принимает несколько изображений с явным назначением ролей (например, «Изображение A: поза», «Изображение B: эталон лица», «Изображение C: текстура фона»). Архитектура кондиционирует генерацию на этих изображениях, чтобы сохранять идентичность/позу/стиль при применении трансформаций (освещение, камера).

Бенчмарки производительности Nano Banana Pro

Nano Banana Pro (Gemini 3 Pro Image) «превосходит в Text→Image AI бенчмарках» и демонстрирует улучшенное рассуждение и контекстную привязку по сравнению с предыдущими Nano Banana моделями. Акцент делается на более высокой fidelity и улучшенном рендеринге текста относительно прежних релизов.

Практические рекомендации по производительности

Ожидайте более высокой задержки и стоимости для рендеров 2K/4K по сравнению с 1K или «Flash» моделями, оптимизированными для скорости. Если критичны пропускная способность/латентность, используйте Flash вариант (например, Gemini 2.5 Flash / Nano Banana) для больших объёмов; используйте Nano Banana Pro / gemini-3-pro-image для задач качества и сложного рассуждения.

Как разработчики могут получить доступ к Nano Banana Pro?

Какие эндпоинты и модели выбирать

Идентификатор модели（preview / pro）: gemini-3-pro-image-preview（preview） — используйте его, если хотите функциональность Nano Banana Pro. Для более быстрого и дешевого использования доступен gemini-2.5-flash-image（Nano Banana）.

Доступные поверхности

Gemini API (generativelanguage endpoint): Вы можете использовать ключ CometAPI для доступа. CometAPI предлагает тот же API по более выгодной цене, чем официальный сайт. Для генерации изображений используются запросы generateContent (пример ниже).
Google AI Studio: веб-интерфейс для быстрой экспериментации и ремикса демо-приложений.
Vertex AI (enterprise): выделенный throughput, варианты биллинга (pay-as-you-go / enterprise tiers) и фильтры безопасности для массового продакшна. Используйте Vertex при интеграции в большие пайплайны или пакетные рендер задания.

Бесплатный уровень имеет ограничение; превышение лимита приведет к откату на Nano Banana. Тарифные уровни Plus/Pro/Ultra дают повышенные лимиты и вывод без водяных знаков, а Ultra может использоваться в Flow видео-инструментах и Antigravity IDE в 4K режиме.

Как сгенерировать изображение с Nano Banana Pro (пошагово)?

1) Быстрый интерактивный рецепт в Gemini app

Откройте Gemini → Tools → Create images.
Выберите Thinking (Nano Banana Pro) как модель.
Введите промпт: описать объект, действие, настроение, освещение, камеру, соотношение сторон и любой текст, который должен появиться на изображении. Пример:
“Create a 4K poster of a robotics workshop: a diverse team around a table, blueprint overlay, bold headline ‘Robots in Action’ in sans serif, warm tungsten light, shallow depth of field, cinematic 16:9.”
(Опционально) Загрузите до 14 изображений для слияния или использования в качестве референсов. Используйте инструмент выбора/маски для локального редактирования областей.
Сгенерируйте, затем итеративно правьте через естественный язык (например, “make the headline blue and aligned top-center; increase contrast on the blueprint”), затем экспортируйте.

2) Отправка HTTP на Gemini image endpoint

Необходимо войти в CometAPI чтобы получить ключ.

# save your API key to $CometAPI_API_KEY securely before running
curl -s -X POST \
"https://api.cometapi.com/v1beta/models/gemini-3-pro-image-preview:generateContent" \
-H "x-goog-api-key: $CometAPI_API_KEY" \
-H "Content-Type: application/json" \
-d '{
"contents": [{
"role": "user",
"parts": [{
"text": "Photorealistic 4K image of a yellow banana floating over Earth, studio lighting, cinematic composition. Add bold text overlay: \"Nano Banana Pro\" in top right corner."
}]
}],
"generationConfig": {
"imageConfig": {
"resolution": "4096x4096",
"aspectRatio": "1:1"
}
}
}' \
| jq -r '.candidates[0].content.parts[] | select(.inlineData) | .inlineData.data' \
| base64 --decode > nano_banana_pro_4k.png

Этот пример записывает base64 изображение в PNG файл. Параметр generationConfig.imageConfig.resolution запрашивает 4K вывод (доступно для модели 3 Pro Image).

3) Прямой вызов SDK generateContent для генерации изображений (пример на Python)

Требуется установка Google SDK и аутентификация Google. Пример (текст + референсные изображения + инструменты):

# pip install google-genai pillow
from google import genai
from PIL import Image
import base64

client = genai.Client() # reads credentials from env / config per SDK docs

# Read a reference image and set inline_data
with open("ref1.png", "rb") as f:
ref1_b64 = base64.b64encode(f.read()).decode("utf-8")

prompt_parts = [
{"text": "Create a styled product ad for a yellow banana-based energy bar. Use studio lighting, shallow DOF. Include a product label with the brand name 'Nano Bar'."},
{"inline_data": {"mime_type": "image/png", "data": ref1_b64}}
]

response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=[{"role":"user","parts": prompt_parts}],
generation_config={
"imageConfig": {"resolution":"4096x4096", "aspectRatio":"4:3"},
# tools can be provided to ground facts, e.g. "google_search"
"tools": [{"google_search": {}}]
}
)

for part in response.candidates[0].content.parts:
if part.inline_data:
image = part.as_image()
image.save("product_ad.png")

Этот пример показывает загрузку inline-референсного изображения и запрос 4K композиции при включенном google_search в качестве инструмента. Python SDK обработает низкоуровневые REST детали.

Мульти-изображения & сохранение идентичности персонажей

Чтобы получить композит с сохранением одного и того же человека в разных сценах, передайте несколько inline_data частей (выбранных из вашего набора фото) и укажите в креативной инструкции, что модель должна «сохранять идентичность между выводами».

Короткий практический пример — реальный промпт и ожидаемый поток

Промпт:

"Generate a 2K infographic: 'Q4 Sales by Region 2025' — stacked bar chart with North America 35%, EMEA 28%, APAC 25%, LATAM 12%. Include title top-center, caption with source bottom-right, clean sans-serif labels, neutral palette, vector look, 16:9."

Ожидаемый пайплайн:

app → шаблон промпта + CSV данные → замена плейсхолдеров в промпте → API вызов с image_size=2048x1152 → получение base64 PNG → сохранение ассета + метаданных происхождения → при необходимости наложение точного шрифта через compositor.

Как спроектировать продакшн пайплайн и обработать безопасность / происхождение?

Рекомендуемая архитектура продакшна

Промпт + черновой проход (быстрая модель): используйте gemini-2.5-flash-image (Nano Banana) для генерации множества низкоразрешённых вариаций экономно.
Отбор & уточнение: выберите лучшие кандидаты, уточните промпты, примените инпейтинг/маски для точности.
Финальный высококачественный рендер: вызывайте gemini-3-pro-image-preview (Nano Banana Pro) для финальных 2K/4K рендеров и постобработки (апсэмплинг, цветокоррекция).
Provenance & metadata: храните промпт, версию модели, временные метки и информацию SynthID в хранилище метаданных активов — модель встраивает SynthID водяной знак, и выходы могут быть отслежены для соответствия и аудита.

Безопасность, права и модерация

Авторские права и clearance: не загружайте и не генерируйте контент, нарушающий права. Для пользовательских изображений и промптов, которые могут создавать узнаваемые сходства, используйте явные подтверждения пользователя. Соблюдайте Google Prohibited Use Policy и фильтры безопасности модели.
Фильтрация и автоматические проверки: прогоняйте сгенерированные изображения через внутреннюю систему модерации (NSFW, символы ненависти, политический/чувствительный контент) перед дальнейшим использованием или публичным показом.

Как выполнять редактирование изображений (инпейтинг), мульти-композицию и рендеринг текста?

Nano Banana Pro поддерживает мультимодальные рабочие процессы редактирования: предоставьте одно или несколько входных изображений и текстовую инструкцию, описывающую правки (удалить объект, изменить небо, добавить текст). API принимает изображение + текст в одном запросе; модель может выдавать перемежающиеся текст и изображения в ответе. Примеры шаблонов: маск-редактирование и многоснимковая смесь (стиль-трансфер / композиция). См. документацию для contents массивов, комбинирующих текстовые блоки и бинарные изображения.

Пример: Редактирование (Python псевдо-поток)

from google import genai
from PIL import Image

client = genai.Client()

prompt = "Remove the person on the left and add a small red 'Nano Banana Pro' sticker on the top-right of the speaker"

# contents can include Image objects or binary data per SDK; see doc for exact call
response = client.models.generate_content(
model="gemini-3-pro-image-preview",
contents=[existing_image, prompt], # order matters: image + instruction
)
# Save result as before

Этот разговорный (conversational) стиль редактирования позволяет вам итеративно корректировать результат до получения production-ready актива.

Node.js пример — редактирование с маской и несколькими референсами

// npm install google-auth-library node-fetch
const { GoogleAuth } = require('google-auth-library');
const fetch = require('node-fetch');

const auth = new GoogleAuth({ scopes: ['https://www.googleapis.com/auth/cloud-platform'] });
async function runEdit() {
const client = await auth.getClient();
const token = await client.getAccessToken();
const API_URL = "https://api.generativemodels.googleapis.com/v1alpha/gemini:editImage";
const MODEL = "gemini-3-pro-image";

// Attach binary image content or URLs depending on API.
const payload = {
model: MODEL,
prompt: { text: "Replace background with an indoor studio set, keep subject, add rim light." },
inputs: {
referenceImages: [
{ uri: "gs://my-bucket/photo_subject.jpg" },
{ uri: "gs://my-bucket/target_studio.jpg" }
],
mask: { uri: "gs://my-bucket/mask.png" },
imageConfig: { resolution: "2048x2048", format: "png" }
},
options: { preserveIdentity: true }
};

const res = await fetch(API_URL, {
method: 'POST',
headers: {
'Authorization': `Bearer ${token.token}`,
'Content-Type': 'application/json'
},
body: JSON.stringify(payload)
});
const out = await res.json();
console.log(JSON.stringify(out, null, 2));
}
runEdit();

(Примечание: API иногда принимает Cloud Storage URI или base64 пейлоады; уточняйте точный формат входных данных в документации Gemini API.)

Дополнительная информация о вызовах и CometAPI

Для информации о генерации и редактировании изображений через CometAPI смотрите руководство «Guide to calling gemini-3-pro-image».

Заключение

Nano Banana Pro (Gemini 3 Pro Image) — это производственный скачок в генерации изображений: инструмент для визуализации данных, создания локализованных правок и поддержки рабочих процессов разработчиков. Используйте приложение Gemini для быстрой прототипировки, API — для интеграции в продакшн, и следуйте рекомендованным практикам для контроля затрат, обеспечения безопасности и поддержания качества бренда. Всегда тестируйте реальные пользовательские сценарии и храните метаданные происхождения для прозрачности и аудита.

Используйте Nano Banana Pro, когда вам нужны студийные активы высокого качества, точный контроль композиции, улучшенное отображение текста внутри изображений и возможность объединять несколько референсов в одно связное изображение.

Разработчики могут получить доступ к API Gemini 3 Pro Image (Nano Banana Pro) через CometAPI. Чтобы начать, изучите возможности модели CometAPI в Playground и ознакомьтесь с Continue API guide для подробных инструкций. Перед доступом убедитесь, что вы вошли в CometAPI и получили API ключ. CometAPI предлагает цену значительно ниже официальной для упрощения интеграции.

Готовы начать? → Зарегистрируйтесь в CometAPI сегодня!