54 подписчика

Кандинский 3.1: Прорыв в генерации изображений или простое обновление?

7 июня7 июн

4 мин

Оглавление

Продолжение эволюции нейронной сети “Кандинский”
От абстрактного к фотореализму
Функционал нейросети

Продолжение эволюции нейронной сети “Кандинский”

Знаменитая нейронная сеть, способная создавать изображения по текстовым запросам, известная как “Кандинский”, продолжает развиваться. Названная в честь прославленного русского художника-абстракциониста, она была значительно обновлена в версии 3.1, предлагая пользователям новые возможности для создания визуального контента. Разработчики сделали значительный шаг вперед, усовершенствовав алгоритмы и подходы к генерации изображений. Но насколько высокое качество выдает данная нейросеть в процессе работы? Давайте рассмотрим новшества “Кандинского” более подробно.

От абстрактного к фотореализму

История развития “Кандинского” отображает прогресс технологий генерации изображений. Если весной 2023 года версия 2.1 показывала достойные результаты в создании художественных артов, то к лету того же года разработчики столкнулись с вызовом международных конкурентов, таких как Midjourney и Stable Diffusion, которые уже двигались в сторону фотореализма. В ответ на это появилась версия 2.2, а затем и совершенно новое поколение – “Кандинский 3.0”, представленное на конференции AI Journey.

В версии 3.0 была переосмыслена архитектура, использован более мощный текстовый энкодер, что значительно повысило качество изображений с точки зрения детализации и натуральности. В обновленной версии 3.1 разработчики достигли настоящего прорыва, ускорив процесс генерации почти в 20 раз. Для создания изображения теперь достаточно всего четырех проходов через U-Net. “Кандинский” эволюционировал от классической диффузионной модели к чему-то схожему с GAN (генеративно-состязательной сетью), что отразилось в названии технологии – Kandinsky 3.0 Flash.

Функционал нейросети

Нейросеть “Кандинский” предоставляет широкий ассортимент функций для работы с изображениями. Основной возможностью остается генерация изображений по текстовому описанию – пользователь вводит запрос, и система создает соответствующую визуализацию. Особенностью сервиса является его оптимизация для работы с русским языком, что выделяет его среди большинства иностранных аналогов. В версии 3.1 появилась полезная функция “бьютификации” запроса, использующая большую языковую модель (LLM) Neural-Chat-v3-1 для улучшения пользовательского ввода. Система автоматически обогащает промпт деталями, повышая качество и соответствие ожиданиям.

Среди других интересных возможностей стоит выделить смешивание изображений, создание вариаций на основе готовых картинок, функцию дорисовки (outpainting), а также перенос стиля – аналог плагина ControlNet от Stable Diffusion. Эта функция позволяет применять позу персонажа или контуры исходного изображения к новой генерации.

Отдельного внимания заслуживает возможность создания коротких анимационных роликов. Нейросеть генерирует четырехсекундные GIF-файлы, которые можно объединять в небольшие видеоклипы. Благодаря специальной диффузионной модели SuperRes, “Кандинский 3.1” теперь способен создавать изображения в разрешении 4K.

Как начать использовать нейросеть

Теперь давайте посмотрим, как работает нейросеть на практике. Чтобы воспользоваться “Кандинским” и сгенерировать изображение, достаточно перейти на страницу нейросети по адресу Fusionbrain.ai или воспользоваться ботами в Вконтакте и Telegram. Для начала мы попросили нейросеть создать изображение “сферического коня в вакууме”. Полученное изображение имело некоторые артефакты; лошадь, например, была изображена с тремя задними ногами и лишней подковой спереди.

На платформе Fusionbrain мы увидели более корректный результат, хотя и там имелись недостатки, например, подсвечники оказались расположены прямо на полу.

С применением опции улучшения промпта изображение вышло уже лучше, хотя, вновь, не без недостатков – посмотрите на этот странный ковер и необычное отверстие в потолке.

Мы также попросили нейросеть создать изображение симпатичной девушки, на этот раз с активированной функцией бьютификации. Однако стопроцентно качественного результата не было достигнуто – нейросеть забыла дорисовать цепочку на шее девушки.

Недостатки модели

Как видно, несмотря на впечатляющие возможности, “Кандинский” демонстрирует смешанные результаты в различных сценариях. В то время как с абстрактными композициями нейросеть справляется неплохо, создание детализированных сцен или портретов может вызвать заметные трудности. Интеграция функции Inpainting в версии 3.1 частично решает эту проблему, позволяя корректировать результаты и дорабатывать их до желаемого состояния. Однако возникает вопрос: зачем долго генерировать одно и то же изображение, пытаясь его улучшить, когда на данный момент есть множество нейросетей, способных понять пользовательские запросы с первого раза?

Кроме того, интерфейс программы, хоть и интуитивно понятен, все же имеет некоторые недочеты. На темном фоне сложно увидеть детали изображения, а зона генерации занимает небольшую площадь, что мешает сосредоточению на творческом процессе.

Заключение

Итак, основное преимущество сервиса заключается в его адаптации для русскоязычных пользователей. “Кандинский” действительно хорошо улавливает запросы на русском языке и учитывает их нюансы при генерации, что делает работу с ним удобной для русскоговорящей аудитории. Тем не менее, несмотря на технические улучшения, нейросеть по-прежнему страдает от артефактов и требует доработок в некоторых сценариях.

Именно понимание запросов пользователей является ключевым элементом успешной генерации контента.🔔 Чтобы узнать больше и следить за новостями из мира ИИ, подписывайтесь на мой канал “ProAI” в Telegram!