Инженеры из Microsoft представили нейросеть, способную создавать сложные изображения по текстовому описанию. Описание разработки опубликовано на arxiv.com. Исследователи разработали генеративно-состязательную нейросеть ObjGAN, которая очень похожа на представленный ранее Microsoft алгоритм AttGAN. Отличие заключается в том, что новая нейросеть при создании изображений на основе текста ориентируется на объекты — другими словами, она анализирует нужный текст и раскладывает объекты из библиотеки на готовом изображении. Для обучения алгоритма разработчики использовали классический датасет COCO, состоящий из 328 тысяч изображений с текстовыми описаниями. В исследовании говорится, что представленная нейросеть лучше других алгоритмов справляется с созданием по текстовому описанию сложных объектов, в которых содержится множество мелких деталей. В будущем нейросеть будет дорабатываться, чтобы получаемые с ее помощью изображения были еще более реалистичными.
Нейросеть научилась создавать сложные сцены по текстовому описанию
21 июня 201921 июн 2019
14
~1 мин