Найти в Дзене
Машинное обучение

👨‍🎨 DALL-E не всемогущ? 🖌

Мы уже рассказывали вам про AI-модель, которая генерирует удивительные (и очень точные!) изображения на основе текстового описания. Сегодня нам хочется чуть поумерить всеобщие восторги и разобрать некоторые ограничения модели, которые не видны на первый взгляд.

📍Недостаток информации: Иногда модели нужно давать очень много уточнений, чтобы получить то, что нужно

📍Трудности в понимании контекста: В то же время, когда описание слишком длинное, модель чаще ошибается и хуже оценивает контекст (особенно, со словами, которые имеют несколько разных значений)

📍Никто не может знать всего: DALL-E может попросту не знать (не иметь никаких данных) о том, что вы хотите получить

📍У всего есть предел: Модель не может работать со слишком длинными описаниями с большим количеством дополнений

📍Все смешалось в доме Облонских: Модель может смешивать описания и присваивать определенные черты не тем объектам, которым нужно

📍Странные изображения: Если вы хотите создать изображение с совершенно разными (несочетающимися) деталями, то модель вероятнее всего вас не поймет

📍Художник, а не писатель: если вы хотите сгенетировать изображение с текстом или подписью, буквы могут быть ненастоящими

📍И, точно, не математик: Если вы хотите получить более 4 обьектов на изображении, то по мере роста числа обьектов, вероятность получить нужное количество неуклонно падает

📍Лица всем художникам даются с трудом: Зачастую лица людей на изображениях выглядят неправдоподобно, как у сломанной куклы или робота

Если какое-то из ограничений осталось не вполне понятным и вообще таковым не кажется, то в этом треде есть визуальные объяснения, которые помогают понять, в чем же все-таки дело.

Конечно, все эти нюансы никак не отменяют того, что это самая качетсвенная современная модель для создания и преобразования изображений. Просто всегда есть куда стремиться и что улучшить, не так ли?

Machinelearning