2023-й запомнится как начало глобальной гонки генеративного искусственного интеллекта. В серии материалов мы расскажем про самые популярные и полезные нейросети, а начнём с Kandinsky — модели Сбера для преобразования текста в изображение.
Что за Kandinsky?
В 2021 году Сбер представил нейронную сеть ruDALL-E — первую в мире технологию, которая генерирует оригинальные изображения по русскоязычному описанию.
Вообще такие нейросети называют мультимодальными, то есть способными одновременно работать с несколькими типами контента, например, с текстом и изображениями. Один из пионеров направления — компания OpenAI, которая стоит за ChatGPT. У стартапа есть своя технология по преобразованию текста в изображение под названием DALL-E. Она и послужила прообразом для разработки Сбера.
Исходная версия ruDALL-E существует в двух вариантах, которые названы в честь российских абстракционистов Казимира Малевича и Василия Кандинского:
- ruDALL-E Malevich — 1,3 млрд параметров;
- ruDALL-E Kandinsky — 12 млрд параметров.
В прошлом году Kandinsky получил первое крупное обновление, перейдя с генеративно-состязательного на более эффективный диффузный алгоритм машинного обучения. Это и процесс настройки упростило, и позволило реализовать поддержку более сотни языков. Конкуренты Kandinsky — Midjourney и OpenAI DALL-E 2 — принимают только англоязычные запросы.
Актуальная версия модели — Kandinsky 2.2. Её выпустили в июле. Разработчики сделали особый упор на фотореалистичность результатов. Ещё нейросеть научилась выдавать изображения в более высоком разрешении (1024px вместо 768px) и получила специальный режим для создания стикеров для мессенджеров.
Что умеет?
Всего у Kandinsky 2.2 пять режимов работы:
- Генерация по тексту. Вы пишете запрос, а нейросеть воплощает его в графическом виде.
- Смешивание изображений. Либо миксует две картинки, либо модифицирует изображение по текстовому запросу.
- Перенос стиля. Пригодится, если надо перенести какие-то детали на другое изображение. Похожий механизм под названием ControlNet есть у модели Stable Diffusion.
- Вариации изображения. Нейросеть генерирует нечто, похожее на загруженный пример.
- Создание стикера. Работает как генерация по тексту, только результат отличается прозрачным фоном и красивой обводкой.
Ещё можно задать стиль генерации. Среди доступных вариантов — аниме, киберпанк, картина маслом, рисунок карандашом и 3D-рендер. Опции вроде хохломы и советского мультфильма явно нацелены на российского пользователя. Таких стилей в Midjourney не встретить. А если желаемого варианта нет, можно уточнить стиль прямо в текстовом запросе.
Разрешение и соотношение сторон результирующего изображения тоже настраиваются. Есть пять опций: 1:1 (1024х1024), 16:9 (1024х572), 9:16 (572х1024), 3:2 (1024х680) и 2:3 (680х1024).
Kandinsky доступен бесплатно. Пока Сберне пошёл по пути Midjourney, которая весной закрыла даже ограниченную пробную версию.
Как попробовать?
Удобнее всего тестировать Kandinsky 2.2 через официальный Telegram-бот. Он поддерживает все режимы и быстро отвечает даже вечером, когда логично ожидать высокой загрузки.
Разработчики нейросети предлагают ещё несколько способов:
- Онлайн-редактор Fusion Brain. Есть несколько уникальных решений: например, можно дорисовать недостающие части изображения или стереть ластиком отдельный фрагмент, чтобы сгенерировать его заново.
- Сайт ruDALL-E. Поддерживает только генерацию по текстовому запросу и выбор стиля.
- Бот «ВКонтакте». Тоже справляется лишь с базовой функцией.
- Голосовой помощник «Салют» — в рамках навыка «Включи художника» в Android-приложении «Салют» или на умном устройстве под управлением «Салют ТВ».
Что получается?
Пробуем обычную генерацию по текстовому запросу «Сократ на скейтборде». Все варианты вполне приемлемые, но без обычных для нейросетей галлюцинаций не обошлось. То третья нога, то шесть пальцев, то лишние колёса у скейтборда. А результат в стиле аниме уж никак не похож на японскую мультипликацию.
В режиме смешивания нейросеть берёт от двух картинок случайные элементы, поэтому иногда можно получить непредсказуемые результаты. Куда полезнее кажется микс изображения и текстового уточнения. Правда, от оригинального сеттинга остаётся только идея, а детали в результат не переносятся.
Режим «Вариации изображения» окажется полезным, если хочется позаимствовать идею для иллюстрации, не нарушая авторских прав. Понятно, что трюк не прокатит с фотографиями людей, зато с общими планами — вполне.
Для тестирования переноса стиля пробуем всё те же постеры «Барби» и «Оппенгеймера». И… снова получаем нелепицу. Проблема в том, что нельзя никак указать, какие детали стоит переносить, а какие нет.
Зато удобно сделан генератор стикеров. Получаются интересные картинки в духе официальных стикеров Telegram, которые сразу же можно оформить в стикерпак. Правда, оригинальные и сложные запросы Kandinsky в таком формате не воплощает. Ещё нельзя добавить текст, что часто важно для стикеров.
Что в итоге?
Kandinsky ценен множеством полезных режимов, поддержкой русскоязычных запросов и бесплатной работой.
Как и другие нейросети, алгоритм Сберауспешно справляется с пейзажами и прочими иллюстрациями, которые не требуют высокой детализации. Хотя получить качественное изображение человека или животного всё же возможно. Чтобы повысить шансы на успех, лучше составлять максимально подробный запрос.
Уже попробовали Kandinsky? Рассказывайте в комментариях, что понравилось и что не понравилось.