Google открыл доступ к экспериментальной функции генерации и редактирования изображений в своей модели Gemini. Хотя она еще не интегрирована в общедоступный чат-бот, энтузиасты уже могут протестировать ее бесплатно через Google AI Studio — площадку для знакомства с передовыми ИИ-разработками компании. Ниже мы подробно разберем, как подключиться к этой возможности.
Шаги для доступа через Google AI Studio
- Доступ (для пользователей из России): потребуется использовать VPN или другой инструмент для получения иностранного IP-адреса.
- Войдите в аккаунт: используйте свою учетную запись Google. Если вы не авторизованы, пройдите стандартный вход (почта, пароль, возможная верификация).
4. Примите условия: поставьте галочку в первом пункте соглашения (обязательно). Вторая галочка (необязательно) включает подписку на новости Google об ИИ.
5. Выберите модель: в интерфейсе AI Studio найдите раздел выбора модели и укажите "Gemini 2.0 Flash (Image Generation) Experimental". Это модель, отвечающая за генерацию и редактирование изображений.
Начало работы
- Примеры: в чате вы увидите кнопки, запускающие демонстрационные сценарии (редактирование круассанов, иллюстрации для истории, открытка). Они помогут понять принцип работы. Например, "Image Editing" покажет пример с добавлением шоколада на круассан.
- Свой запрос: чтобы начать работу над своей задачей, используйте кнопку "Create Prompt" для создания нового чата.
- Лимит токенов: каждый чат с Gemini 2.0 Flash ограничен (сейчас ~32 786 токенов). Токены — это единицы текста; кириллица обычно "стоит" больше токенов, чем латиница. Когда лимит будет исчерпан, просто начните новый чат для продолжения.
Давайте разберёмся, что Gemini 2.0 Flash может делать, особенно в контексте редактирования изображений, а что выходит за рамки текущих возможностей нейросети.
Что больше всего удается Gemini 2.0 Flash (в рамках редактирования по маске/области)
1. Добавлять элементы
Может добавлять объекты, эффекты (дым, огонь, свет), узоры или текстуры в указанные вами области изображения.
2. Изменять существующие элементы
Цвет: менять цвет одежды, волос, предметов, фона в выделенной зоне, раскрашивать картинки, черно-белые фотографии.
Стиль/Текстура: придавать объектам другую текстуру (например, сделать ткань бархатной, металл ржавым) в указанной области.
Освещение (локально): делать часть изображения светлее или темнее.
3. Удалять простые объекты
Если объект находится на относительно однородном фоне или его удаление не требует сложной "дорисовки" того, что было под ним, нейросеть может попытаться его убрать. Однако, чем сложнее объект и фон, тем ниже шанс на хороший результат.
4. Заменять элементы
Нейросеть может заменять один объект на другой в указанной области (например, заменить яблоко на апельсин), если это не требует кардинального изменения перспективы или окружения.
5. Создавать скриншоты из игр
Кадры из игр выглядят достаточно реалистично.
Что Gemini 2.0 Flash сложно или невозможно сделать
1. Создавать изображения с нуля по описанию
Gemini 2.0 Flash пока не может генерировать совершенно новые фотореалистичные изображения людей, сцен или сложных объектов только по текстовому запросу (как это делают модели генерации изображений типа Midjourney или DALL-E). Её назначение — модификация существующего изображения.
2. Выполнять сложные структурные изменения
Изменение позы или выражения лица: нейросеть не может заставить человека на фото улыбнуться, повернуть голову или изменить позу.
Удаление сложных, перекрывающих объектов: например, удалить очки с лица ей очень сложно, потому что нужно реалистично "дорисовать" глаза и часть лица, которые были скрыты. Возможности нейросети по "додумыванию" скрытых деталей ограничены.
Полное изменение фона за сложным объектом: заменить фон за человеком с развевающимися волосами — сложная задача.
3. Создавать изображения, соответствующие строгим внешним правилам
К примеру, задача "сделать фото на паспорт" требует не просто визуальных изменений, а соблюдения четких стандартов (фон, освещение, выражение лица, отсутствие аксессуаров, пропорции), которые нейросеть не может гарантировать или автоматически применить ко всем элементам изображения.
4. Кардинально менять стиль всего изображения
Превратить фотографию в мультфильм или картину маслом — это обычно выходит за рамки локального редактирования по маске.
Помимо изображений, Gemini 2.0 Flash может:
- Отвечать на вопросы
- Писать тексты (статьи, письма, код)
- Переводить
- Обобщать информацию
- Объяснять концепции
- И многое другое!
Таким образом, модель Gemini 2.0 Flash справляется с большинством задач, но далеко не всегда дает точный результат. В редактировании изображений Gemini 2.0 Flash сильна в локальных модификациях и добавлениях в указанные области. Сложные задачи, требующие "понимания" скрытых частей изображения, генерации новых сложных деталей или соблюдения внешних правил (как у фото на паспорт), ей пока не по силам.
***
Друзья, по традиции - новая подборка нейроартов (куклы) для вас (11 картинок):
__________________________________________
P.S. Приглашение на Мастер-Классы по изучению Топовых Нейросетей, где Вас ждут Бонусы и Подарки: