Мы уже рассказывали вам про AI-модель, которая генерирует удивительные (и очень точные!) изображения на основе текстового описания. Сегодня нам хочется чуть поумерить всеобщие восторги и разобрать некоторые ограничения модели, которые не видны на первый взгляд.
📍Недостаток информации: Иногда модели нужно давать очень много уточнений, чтобы получить то, что нужно
📍Трудности в понимании контекста: В то же время, когда описание слишком длинное, модель чаще ошибается и хуже оценивает контекст (особенно, со словами, которые имеют несколько разных значений)
📍Никто не может знать всего: DALL-E может попросту не знать (не иметь никаких данных) о том, что вы хотите получить
📍У всего есть предел: Модель не может работать со слишком длинными описаниями с большим количеством дополнений
📍Все смешалось в доме Облонских: Модель может смешивать описания и присваивать определенные черты не тем объектам, которым нужно
📍Странные изображения: Если вы хотите создать изображение с совершенно разными (несочетающимися) деталями, то модель вероятнее всего вас не поймет
📍Художник, а не писатель: если вы хотите сгенетировать изображение с текстом или подписью, буквы могут быть ненастоящими
📍И, точно, не математик: Если вы хотите получить более 4 обьектов на изображении, то по мере роста числа обьектов, вероятность получить нужное количество неуклонно падает
📍Лица всем художникам даются с трудом: Зачастую лица людей на изображениях выглядят неправдоподобно, как у сломанной куклы или робота
Если какое-то из ограничений осталось не вполне понятным и вообще таковым не кажется, то в этом треде есть визуальные объяснения, которые помогают понять, в чем же все-таки дело.
Конечно, все эти нюансы никак не отменяют того, что это самая качетсвенная современная модель для создания и преобразования изображений. Просто всегда есть куда стремиться и что улучшить, не так ли?