Найти в Дзене
техноблог "ГРОМ"

Google запускает Gemeni 2.5 Flash Image, чтобы бросить вызов ChatGPT

Google официально представила значительное обновление своего редактора изображений на основе искусственного интеллекта Gemini, введя новые функции, которые делают его прямым конкурентом ChatGPT от OpenAI и других ведущих платформ для генерации изображений с помощью ИИ. Обновление под названием Gemini 2.5 Flash Image было выпущено во вторник и обеспечивает повышенную точность редактирования при сохранении консистентности персонажей — ключевой слабости конкурирующих моделей. Новая модель представляет собой последнюю попытку Google догнать господство OpenAI в области генерации изображений с помощью искусственного интеллекта. Согласно судебным документам, опубликованным в апреле 2025 года, ChatGPT сохраняет значительное преимущество с примерно 600 миллионами ежемесячных активных пользователей по сравнению с 350 миллионами у Gemini. Тем не менее, Google, похоже, предпринимает стратегические шаги для сокращения этого разрыва. Обновление выходит из подразделения DeepMind компании Google и осн
Оглавление
Gemeni
Gemeni

Google официально представила значительное обновление своего редактора изображений на основе искусственного интеллекта Gemini, введя новые функции, которые делают его прямым конкурентом ChatGPT от OpenAI и других ведущих платформ для генерации изображений с помощью ИИ. Обновление под названием Gemini 2.5 Flash Image было выпущено во вторник и обеспечивает повышенную точность редактирования при сохранении консистентности персонажей — ключевой слабости конкурирующих моделей.

Уменьшение разрыва с помощью ChatGPT

Новая модель представляет собой последнюю попытку Google догнать господство OpenAI в области генерации изображений с помощью искусственного интеллекта. Согласно судебным документам, опубликованным в апреле 2025 года, ChatGPT сохраняет значительное преимущество с примерно 600 миллионами ежемесячных активных пользователей по сравнению с 350 миллионами у Gemini. Тем не менее, Google, похоже, предпринимает стратегические шаги для сокращения этого разрыва.

Обновление выходит из подразделения DeepMind компании Google и основывается на существующих возможностях искусственного интеллекта компании по созданию изображений. Что отличает эту модель — это её способность сохранять черты лица, характеристики животных и другие визуальные детали при внесении изменений — область, в которой ChatGPT и другие конкуренты часто испытывают трудности. Например, при просьбе ChatGPT изменить цвет рубашки часто возникают искажённые лица или изменённые фоны, тогда как новый редактор Gemini поддерживает визуальную согласованность.

Продвинутые функции редактирования и реакция рынка

Модель уже вызвала значительный ажиотаж под своим тестовым кодовым именем «nano-banana», которое появилось анонимно на LMArena, платформе для оценки моделей ИИ с краудсорсингом. Генеральный директор Google DeepMind Демис Хассабис даже присоединился к рекламной кампании, опубликовав микроскопическую фотографию банана с подписью «странный объект замечен под микроскопом на выходных в лаборатории».

Николь Брихтова, руководитель продукта визуальных генеративных моделей в Google DeepMind, подчеркнула ориентированный на потребителя дизайн модели в интервью TechCrunch. Новые возможности включают многократное редактирование, позволяющее пользователям последовательно вносить изменения без необходимости начинать сначала, а также смешивание дизайнов, которое применяет стилистические элементы одного изображения к объектам на другом.

Влияние на отрасль и меры безопасности

Обновление происходит на фоне того, что генерация изображений с помощью ИИ становится все более важной для крупных технологических компаний. Встроенный генератор изображений GPT-4o от OpenAI вызвал резкий рост использования после запуска — генеральный директор Сэм Олтман отметил, что из-за вирусного создания мемов в стиле студии Ghibli GPU компании буквально «плавились». Между тем, Meta обратилась к лицензированию моделей генерации изображений с ИИ у стартапа Midjourney, чтобы конкурировать.

Google внедрила меры безопасности, включая визуальные водяные знаки и встроенные идентификаторы метаданных SynthID на всех сгенерированных изображениях. Условия использования компании запрещают создание интимных изображений без согласия, решая проблему злоупотребления дипфейками, которая затронула другие платформы. Новый редактор изображений доступен сразу для всех пользователей Gemini, как бесплатных, так и платных, через приложение Gemini, API и платформы Google AI Studio.