Давно хотел покрутить отечественные решения в сфере нейронок, и вот попался интересный экземпляр - Fusion Brain от Кандинский (Сбер).
Стало интересно, поэтому решил немного поисследовать.
С первых касаний сразу можно сказать о реально удобном интерфейсе - всё под рукой, немного кнопок, интуитивно всё понятно. Максимально удобный выбор разрешения и соотношения сторон.
Начнем с генерации изображений. Сравнивать будем с DALLE-3 от OpenAI.
Промпт:
"""
Стая розовых слонов с крыльями, которые летят по направлению в сторону заката. На слонах сидят макаки как воины, с копьями в руках. Мрачный стиль хоррор.
"""
Кандинский:
Один слон получился симпатичный, но отсутствуют макаки и остальные слоны без крыльев. Стиль не очень похож на мрачный хоррор.
DALLE:
DALLE постаралась учесть все детали: есть макаки, есть крылья, слоны вроде как летят (хотя больше похоже что идут).
Справедливо заметить, что для Кандинский я указал стиль в промпте, хотя для выбора стиля у них есть отдельная вкладка.
Давайте попробуем ещё:
"""
Дети играют в снежки у дома, вокруг новогодние украшения и одна большая ёлка, вся в гирляндах и звездой на верхушке. Стиль 3D рендера.
"""
Теперь для Кандинского укажем Стиль 3D в отдельной настройке.
Кандинский:
Дети, конечно, есть. Ёлка тоже выглядывает из-за угла и на ней даже есть что-то отдалённо напоминающее звезду)) Но видны артефакты в виде непонятных летающих штук и шаров. С ботинками у ребят тоже какие-то проблемы. Ну и в целом они выглядят, как плохо сшитые куклы.
DALLE:
На мой взгляд результат отличный, всё учтено и выглядит симпатично. Елка с чёткой звездой на месте, дети похожи на живых. Яркие цвета, праздничная атмосфера. Определённо лучше.
Ещё промпт:
"""
Красивый леопард в костюме, сидит в кресле в фото-студии, пьёт кофе и курит сигару, смотрит на большой глобус, который стоит на журнальном столике напротив. Стиль - стилизованный фотореализм, студийное фото.
"""
У Кандинского выбираем стиль "студийное фото". И вот тут уже всё двояко. посмотрите, какой красавец получился у Кандинского:
Но мы видим, что он не курит сигару и не пьёт кофе. Смотрит он в камеру, а не на глобус. С ногой ещё небольшая проблема. Но за такой костюм и такие стильные ботинки мы просто не можем поставить ему плохую оценку))
DALLE:
Картинка немного скучноватая. Но, учтены детали: он пьёт кофе, курит сигару и смотрит на глобус. А это очень важные детали.
Если взять из этих двух картинок всё лучшее, то получился бы шедевр😁
В целом по изображениям картина такая: Кандински плохо понимает детали и через раз выдаёт не очень хорошее качество в целом. Но, справедливо отметить, что иногда результат получается очень не плохой.
У DALLE получше с деталями и общей "живостью" картинки. Стиль всегда можно докрутить более детализированным промптом.
Есть одно большое НО в пользу Кандински: он бесплатный и подключиться к нему можно без танцев с бубном. Мало того, что он бесплатный, так у него ещё есть бесплатное API! Это вообще нонсенс, потому что в DALEE каждое изображение по API стоит не плохих денег.
Ещё у Кандинского есть дополнительные инструменты - ластик, добавление изображения и так далее. Их не пробовал, поэтому комментировать не буду.
Но это ещё не всё. У Кандинского есть генерация видео. В следующий раз сравню генерацию видео в Кандински с генераций видео в SORA от OpenAI.
Приходите в Tелеграм, поболтаем😁 Всем добра!