17,5 тыс подписчиков

Сбер обновил свою нейросеть – тест Kandinsky 2.0

9 декабря 20229 дек 2022

338

2 мин

Оглавление

Что изменилось в нейросети Kandinsky?
Картины нейросети Kandinsky 2.0
Резюме

Она способна генерировать изображения по описаниям за 10 секунд! Но получается… неоднозначно.

Первую версию Kandinsky Сбер показал в июне. За прошедшие месяцы продвинутая (на тот момент) нейросеть стала просто рядовым алгоритмом генерации изображений. Но вторая версия не заставила себя ждать — и тут Сбер нас реально удивил.

Что изменилось в нейросети Kandinsky?

Kandinsky 2.0 был представлен на конференции AI Journey, которая прошла 23-24 ноября. Главным нововведением, на котором Сбер акцентировал внимание, была функция генерации изображений по описаниям на 101 языке. Российская технокомпания также заявила, что нейросеть способна создавать изображения одинаково легко и быстро вне зависимости от того, на каком языке задан запрос.

Это впечатляющая функция, учитывая, что большинство современных нейросетей заточены лишь под английский язык. Среди немногих исключений китайская ERNIE-ViLG и адаптированные под различные языки аналоги Midjourney и Stable Duffusion.

Попробовать нейросеть от Сбера в работе можно на сайте проекта Fusion Brain. Помимо, собственно, нейросети Kandinsky 2.0, на нем можно увидеть нейросеть Style Transfer. Об этом алгоритме мы расскажем чуть ниже — он заслуживает внимания. А пока — тестируем Кандинского!

Картины нейросети Kandinsky 2.0

Заходим в нейросеть Kandinsky 2.0 и что мы видим? Удобный и красивый интерфейс, который не идет ни в какое сравнение с дискорд-ботом Midjourney или интерфейсом Hugging Face – сервисом, на котором размещают свои алгоритмы разработчики других нейросетей.

Кнопки в верхнем левом углу позволяют передвигать изображение, загружать фото с компьютера и стирать части изображения при помощи ластика (его размер регулируется ползунком).

В нижнем левом углу можно выбрать стиль, в котором будет создаваться изображение, а в верхнем правом есть инструменты для отмены действий и скачивания результата работы нейросети.

Первый наш запрос был такой: «огромный кот в океане играет кораблями». В нижнем углу выбрали стиль «Айвазовский». С генерацией картинки Kandinsky 2.0 справился очень быстро. Но результат был не совсем тот, который мы ожидали:

Стиль 3D-рендер тоже не особенно меня удовлетворил:

Дали нейросети еще один шанс и попросили сгенерировать «космос в дырке унитаза». И опять она, кажется, не попала:

Во втором тесте решили проверить заявленную способность нейросети генерировать изображения по описаниям на сотне языков (простите – на 101!). Для этого задали ей фразу «лапы кота на снегу» на корейском и испанском. Вот что выдал корейский вариант:

Сбер, пожалуйста, добавь в обучающую выборку больше котиков! А то получается что-то страшное. Испанский вариант оказался чуть лучше, но тоже не совсем то:

Резюме

Нейросеть Kandinsky 2.0 поражает скоростью работы — она генерирует изображение за 10 секунд, и это супер. Но, вероятно, из-за маленького количества шагов, точность распознавания страдает. Возможно, Сбер улучшит алгоритм и даст возможность генерировать более точные результаты. А пока это лишь перспективный проект с хорошим UX-дизайном.