Информационный портал о технологии Robotic process automation (RPA)

30 подписчиков

26 августа 2025 года Google представила новую preview-модель под кодовым названием Nano Banana — это часть экосистемы Gemini 2.5 Flash

4 сентября 20254 сен 2025

2 мин

26 августа 2025 года Google представила новую preview-модель под кодовым названием Nano Banana — это часть экосистемы Gemini 2.5 Flash Image, ориентированной на генерацию и редактирование изображений с помощью текстовых и мультимодальных запросов. Несмотря на шутливое название, перед нами — серьёзный инструмент с претензией на роль нового стандарта в визуальном ИИ. Что это за модель "Nano Banana" — это неофициальное имя для модели gemini-2.5-flash-image-preview. По сути, она представляет собой SOTA-решение в области image generation/editing, оптимизированное под высокую скорость и сохранение визуальной консистентности. Вход: текст, изображение или их комбинация (multimodal input) Выход: изображение, JSON, структурированный ответ (structured outputs) Ограничение: контекстное окно 32 768 токенов (вход + выход) Нет: генерации аудио, real-time поиска, дообучения, вызова функций Модель уже встроена в: Gemini App (веб/мобильное приложение) - бесплатно Gemini API - платный доступ через Google

Что это за модель

"Nano Banana" — это неофициальное имя для модели gemini-2.5-flash-image-preview. По сути, она представляет собой SOTA-решение в области image generation/editing, оптимизированное под высокую скорость и сохранение визуальной консистентности.

Вход: текст, изображение или их комбинация (multimodal input)

Выход: изображение, JSON, структурированный ответ (structured outputs)

Ограничение: контекстное окно 32 768 токенов (вход + выход)

Нет: генерации аудио, real-time поиска, дообучения, вызова функций

Модель уже встроена в:

Gemini App (веб/мобильное приложение) - бесплатно

Gemini API - платный доступ через Google Cloud

Vertex AI - для enterprise-пользователей

Krea - доступна по подписке, встроена в визуальный редактор

Что умеет Nano Banana

1. Генерация изображений по тексту

Prompt: "A character in cyberpunk armor standing in neon-lit Tokyo street at night"

Результат: фотореалистичный персонаж, выдержанный в заданном стиле, с корректной композицией, освещением и фоном. Главное стабильность. Персонаж может быть использован в других сценах и он останется узнаваемым.

2. Локальное редактирование по описанию

Prompt: "Same image, but replace the background with a desert and make the lighting warm"

Модель заменит фон, адаптирует цветовую температуру и сохранит лицо, позу и детали.

3. Поддержка стилистики и преобразований

Модель понимает сложные команды вроде:

"Convert the entire scene into watercolor style"

"Make it look like an 80s anime frame"

Отличия от других решений

Поддержка мультимодальности уже в preview-версии

Скорость: до 30x быстрее предыдущих моделей Google (по latency)

Память и консистентность: стабильные лица, позы, освещение от сцены к сцене

Лёгкость API-интеграции: через стандартный Gemini SDK

Стоимость

В Gemini App — бесплатно

В API — ~$0.039/изображение

В Krea — только по подписке (Pro-план)

Возможности для разработчиков

Интеграция через Gemini API или Vertex AI

Возможность генерации десятков вариантов из одного запроса

Поддержка structured output (например, генерация изображения + описание объекта в сцене)

Пример использования в API:

{

"model": "gemini-2.5-flash-image-preview",

"prompt": "A futuristic city skyline in sunset with flying cars",

"output_format": "image/png"

}

Nano Banana — это не столько маркетинговый ход, сколько рабочий инструмент, предназначенный для быстрой генерации качественного визуального контента. Особенно полезна модель для:

digital-агентств,

game art-пайплайнов,

стартапов в e-commerce,

систем визуального сторителлинга,

внутреннего использования в продуктах с генеративным UI.

Пока модель работает в режиме preview, но уже сейчас доступна для коммерческого и творческого применения.

Гаджеты и электроника

5,73 млн интересуются