Найти в Дзене

Сервис Google Whisk: обзор экспериментального генератора изображений

Оглавление

Google Whisk — это экспериментальный инструмент из Google Labs, запущенный в декабре 2024 года. Он позволяет пользователям комбинировать изображения и текстовые подсказки для создания новых визуальных композиций.

Главная страница сервиса
Главная страница сервиса

В отличие от классических графических редакторов, Whisk работает на базе моделей искусственного интеллекта (Gemini + Imagen 3) и подходит для быстрой генерации идей и креативных экспериментов.

Переходить в сервис по ссылке стоит сразу с зарубежным ip-адресом (через VPN), в противном случае будет "Ошибка 500", или сервис не будет работать у вас. Зарегистрироваться удобнее всего через гугл-аккаунт.

🔑 Основные возможности

  1. Смешивание референсных изображений
    Можно загрузить до трёх изображений в роли ориентиров:
    Subject (объект или тема),
    Scene (сцена),
    Style (стиль).
Настройка параметров
Настройка параметров

Красной стрелкой указано, где можно настроить размер изображения, выбрать промт и другое.

Настройка размера изображения
Настройка размера изображения
Настройка значения (семя)
Настройка значения (семя)
Загрузка объекта
Загрузка объекта

Я загрузила объект (изображение со своим лицом) и сцену (фон). Стиль у меня совпадает со сценой. В нижнем поле я написала промт:

Девушка возле замка и пролетающий над ней дрон

Промт лучше писать на английском языке.

-6

Сделав несколько генераций, у меня вот что получилось:

-7
-8
-9
-10

Система анализирует исходные изображения и использует их как основу для генерации. Загруженные изображения распознаются моделью Gemini, которая описывает их содержимое. Эти описания + текстовый ввод пользователя передаются в Imagen 3 для генерации финального результата.

Можно дополнять визуальные референсы текстовыми уточнениями (например, «в стиле акварели» или «ночной городской пейзаж»).

Можно использовать функцию случайных референсов (иконка «кубик»).

После генерации можно вносить изменения с помощью дополнительного текстового запроса («refine»):

-11

Готовые результаты можно сохранять на компьютер (обычно в PNG/JPEG).

Шаблоны стиля

В сервисе есть предустановленные варианты стилей (например, «Sticker», «Plushie», «Enamel Pin» и другие), позволяющие быстро задать визуальный стиль.

Встроенные стили
Встроенные стили

Но не обязательно пользоваться шаблонами - можно загрузить любую картинку в понравившемся стиле.

✅ Преимущества сервиса

  • Интуитивность: простой интерфейс без сложных настроек.
  • Гибкость: комбинирование изображений и текста.
  • Креативность: позволяет быстро визуализировать идеи и концепции.
  • Бесплатный доступ: сервис доступен через Google Labs (пока в экспериментальном режиме).

⚠️ Недостатки

  • Ограниченность функций: нет точных инструментов для ручной правки (яркость, контраст, слои и т. п.).
  • Нет режима «наложения слоёв»: в отличие от Photoshop или Figma, Whisk не работает как классический редактор с Multiply/Overlay.
  • Непредсказуемость: результаты могут отличаться от ожиданий, иногда теряются важные детали (например, лицо или поза).
  • Экспериментальный статус: сервис может меняться или быть закрыт.
  • Региональные ограничения: доступен не во всех странах.

Таким образом, Google Whisk — это экспериментальный инструмент для быстрой визуализации идей на основе комбинации картинок и текста. Он не заменяет профессиональные редакторы, но отлично подходит для креативных экспериментов и поиска стиля.

__________________________________________

P.S. Приглашение на Мастер-Классы по изучению Топовых Нейросетей, где Вас ждут Бонусы и Подарки:

<<<Участвовать Бесплатно>>>