5 января 2021 года широкой публике была представлена первая версия нейросети DALL-E, которая могла генерировать картинки на основании текстовых описаний.
С начала 2000-х годов, многие нейронные сети уже были способны генерировать реалистичные изображения. Отличие DALL-E от других подобных сетей заключалось в том, что сеть была способна генерировать их из подсказок на разговорном языке.
Сеть использовала 12 миллиардов параметров для понимания и интерпретации вводных данных естественного языка. Например, она понимала и могла нарисовать такие сложные конструкции, как «фиолетовая кожаная сумочка в форме шестиугольника».
DALL-E могла изобразить как реалистичные объекты вроде белки в сосновом лесу, так и несуществующих предметов, например куб с текстурой дикобраза.
В апреле 2022 года была представлена вторая версия нейросети DALL-E 2. Она, как и предыдущая версия, способна генерировать изображения по описанию, но теперь делает это существенно лучше. Например, она может не просто создать фотографию заката. Теперь сеть способна «нарисовать» её маслом или сделать карандашный набросок.
Но главной отличительной чертой новой сети, которую продемонстрировали создатели в июне, является возможность «дорисовать», расширить существующие картины. Разработчики продемонстрировали это с помощью полотен классических художников.
Утро в сосновом лесу – Шишкин и Савицкий
Девочка с персиками – Валентин Серов
Девятый вал – Иван Айвазовский
Даже при беглом просмотре картин нейросети видно, что лучше всего ей удаются изображения природы. Интерьеры комнат получаются немного хуже (загнутые элементы рамы на дальнем окне у девочки с персиками или странной формы дверной косяк в «Опять двойка»)
Опять двойка – Фёдор Решетников
Изображения людей у DALL-E 2 получаются хуже всего. Обратите внимание на нового персонажа, которого она дорисовала в картину Решётникова выше или на неестественное положение руки у «Девушки с жемчужной серёжкой» Вермеера.