134 тыс подписчиков

Картинки нейросети Stable Diffusion 3 разочаровали пользователей

3 минуты

25 прочтений

14 июня

В среду многие новостные сайты сообщили о крупной новинке среди генераторов изображений: свет увидела нейросеть Stable Diffusion 3 (SD3). Она приходит на смену Stable Diffusion XL, выпущенной около года назад. На сайте разработчика, Stability AI, есть много красочных примеров работы новинки, демонстрирующих весьма высокий уровень качества.

Интерес к Stable Diffusion огромен, так как нейросеть бесплатна, имеет открытый исходный код, крупнейшее пользовательское сообщество, а на её основе можно создавать собственные разработки.

Однако сообщество Stable Diffusion в социальной сети Reddit, где более 500 тысяч подписчиков, сейчас буквально «кипит» от негодования. Там можно найти немало собирающих лайки гневных постов, высмеивающих новинку мемов и т. д.

Дело в том, что в реальности, несмотря на прошедший год, качество генерации показывает весьма спорные результаты, особенно если пытаться создавать картинки с людьми. Пользователи ожидали прогресс в генерации лиц, рук, общего построения человеческого тела, однако на практике все эти проблемы сохранились и, кажется, даже усугубились.

Один из пользователей провёл любопытное сравнение, сравнив выпущенную в среду SD3 (опубликована была версия Medium), SD3 Large (доступна избранным тестерам, сроки релиза не определены), Pixart Sigma, а также две особо сильные нейросети – Dall-E 3 и платную Midjourney 6.

Сравнение нейросетей по пяти запросам, см. картинки в полном разрешении.

В итоге с первым запросом на танцующую женщину SD3 Medium исказила конечности, а лицо сделала таким, что испугаться могли бы даже любители фильмов ужасов. Остальные «нейронки» справились чуть лучше, но также, с многочисленными недоработками.

С девушкой, которая лежит на машине, результаты оказались ещё хуже. Хоть какое-то понимание замысла картинки показали Dall-E 3 и Midjourney 6, но нормальными результат и там не назовёшь.

В третьем примере, корректно написать «Large SD3» на красной футболке мужчины смогла только недоступная большинству пользователей SD3 Large. SD3 Medium была близка, но написала много лишнего. А остальные «нейронки» и вовсе изобразили лишь непонятные символы. Также заметим, что 3 из 5 нейросетей по запросу «man» рисуют именно чернокожего человека.

Кадр из игры, SD3 определённо сделала хуже всех остальных.

Наконец, в последнем примере, только Midjourney 6 не исказила пальцы и нарисовала нечто похожее на ножницы из запроса. SD3 Medium показала совсем удручающий результат, с висящими в воздухе тремя руками и странным предметом вместо ножниц, который словно целится женщине в кресле прямо в область глаз.

Ещё одно сравнение, где новая версия оказывается хуже прошлогодней XL.

В других сравнениях авторы также показывают весьма сомнительный прогресс Stable Diffusion 3 на фоне предшественников и конкурентов. Один из пользователей дополнительно продемонстрировал интересный эксперимент.

Он задал запрос, который на русский переводится как «мишка Тедди, лежащий в постели рядом с окном с утренним солнцем, проникающее в пространство освещение придает ему уютную, утешительную атмосферу. У него есть руки за головой в расслабленной позе, а его шелковая пижама свободно свисает с тела, как будто он только что проснулся».

В ответ нейросеть выдала вполне подходящие картинки, полностью или почти соблюдая анатомию тела даже игрушечного существа:

Однако потом автор задаёт точно такой же запрос, меняя «мишка Тедди» на «женщина». Результат получается удручающим:

Подобные примеры сейчас заставляют пользователей задуматься о возможной цензуре в нейросети. Впрочем, показанные выше случаи с искажёнными руками и ножницами всё равно нельзя полностью списать на цензуру. Они показывают, что нейросеть за год попросту не совершила должного прогресса и страдает от прежних ошибок.

Сравнение Ideogram 1.0 (слева) и SD3 Medium. Первая из нейросетей вышла ещё в феврале. Подписи на картинках также сделаны нейросетями.

Впрочем, расстраиваться не стоит. Пользователи выражают надежду на будущую SD3 Large, которая уже сейчас выглядит лучше SD3 Medium и до сих пор дорабатывается. Ещё на подходе должны быть новые версии Midjourney, Dall-E, Playground, Ideogram, отечественной Kandinsky, а также новая Imagen 3, о которой мы недавно писали.