Google Whisk — это экспериментальный инструмент из Google Labs, запущенный в декабре 2024 года. Он позволяет пользователям комбинировать изображения и текстовые подсказки для создания новых визуальных композиций.
В отличие от классических графических редакторов, Whisk работает на базе моделей искусственного интеллекта (Gemini + Imagen 3) и подходит для быстрой генерации идей и креативных экспериментов.
Переходить в сервис по ссылке стоит сразу с зарубежным ip-адресом (через VPN), в противном случае будет "Ошибка 500", или сервис не будет работать у вас. Зарегистрироваться удобнее всего через гугл-аккаунт.
🔑 Основные возможности
- Смешивание референсных изображений
Можно загрузить до трёх изображений в роли ориентиров:
Subject (объект или тема),
Scene (сцена),
Style (стиль).
Красной стрелкой указано, где можно настроить размер изображения, выбрать промт и другое.
Я загрузила объект (изображение со своим лицом) и сцену (фон). Стиль у меня совпадает со сценой. В нижнем поле я написала промт:
Девушка возле замка и пролетающий над ней дрон
Промт лучше писать на английском языке.
Сделав несколько генераций, у меня вот что получилось:
Система анализирует исходные изображения и использует их как основу для генерации. Загруженные изображения распознаются моделью Gemini, которая описывает их содержимое. Эти описания + текстовый ввод пользователя передаются в Imagen 3 для генерации финального результата.
Можно дополнять визуальные референсы текстовыми уточнениями (например, «в стиле акварели» или «ночной городской пейзаж»).
Можно использовать функцию случайных референсов (иконка «кубик»).
После генерации можно вносить изменения с помощью дополнительного текстового запроса («refine»):
Готовые результаты можно сохранять на компьютер (обычно в PNG/JPEG).
Шаблоны стиля
В сервисе есть предустановленные варианты стилей (например, «Sticker», «Plushie», «Enamel Pin» и другие), позволяющие быстро задать визуальный стиль.
Но не обязательно пользоваться шаблонами - можно загрузить любую картинку в понравившемся стиле.
✅ Преимущества сервиса
- Интуитивность: простой интерфейс без сложных настроек.
- Гибкость: комбинирование изображений и текста.
- Креативность: позволяет быстро визуализировать идеи и концепции.
- Бесплатный доступ: сервис доступен через Google Labs (пока в экспериментальном режиме).
⚠️ Недостатки
- Ограниченность функций: нет точных инструментов для ручной правки (яркость, контраст, слои и т. п.).
- Нет режима «наложения слоёв»: в отличие от Photoshop или Figma, Whisk не работает как классический редактор с Multiply/Overlay.
- Непредсказуемость: результаты могут отличаться от ожиданий, иногда теряются важные детали (например, лицо или поза).
- Экспериментальный статус: сервис может меняться или быть закрыт.
- Региональные ограничения: доступен не во всех странах.
Таким образом, Google Whisk — это экспериментальный инструмент для быстрой визуализации идей на основе комбинации картинок и текста. Он не заменяет профессиональные редакторы, но отлично подходит для креативных экспериментов и поиска стиля.
__________________________________________
P.S. Приглашение на Мастер-Классы по изучению Топовых Нейросетей, где Вас ждут Бонусы и Подарки: