Найти в Дзене
Цветок науки

Как определять картины по описанию текста?

Оглавление

Введение

Большинство систем ответов на вопросы используют символическую или текстовую информацию. Мы представляем набор данных для задачи, которая требует понимания описаний визуальных тем и их компоновки: идентификация картин по их описаниям.

Примечания к рисункам сопровождаются данными контуров, выравнивание областей с упоминаниями объектов онтологии и привязка областей изображений к текстовым интервалам из описаний.

Простой метод, основанный на внедрении, применяемый для сопоставления текста с изображением, позволяет получить самые современные результаты при выполнении нашей задачи в сочетании с двухсторонним согласованием. Эта задача еще более осложняется нехваткой данных по подготовке кадров.

https://pixabay.com/ru/photos/офис-примечания-блокнот-620817/
https://pixabay.com/ru/photos/офис-примечания-блокнот-620817/

Знания из изображений

Ответы на вопросы - это стандартная задача НЛП, которая обычно требует сбора информации из таких источников знаний, как исходный текст, онтологии и базы данных.

В последнее время зрение и язык объединены в захватывающую и трудную задачу: использование образов для постановки вопросов или ответов на них.

В то время как люди могут легко отвечать на сложные вопросы, используя знания, полученные с помощью изображений, компьютеры испытывают трудности с визуальным ответом на вопросы (VQA).

Люди преуспевают в выполнении этой задачи, потому что они абстрагируют ключевые понятия от мелочей визуального представления, но компьютеры часто не могут синтезировать предшествующие знания с запутанными визуальными представлениями.

Представляем новый пример ответа на визуальный вопрос: может ли компьютер идентифицировать произведение искусства только с помощью текстового описания?

Множество наших данных содержит изображения картин, гобеленов и скульптур, охватывающие столетия художественных движений из десятков стран. Поскольку эти изображения имеют культурное значение, мы имеем доступ ко многим избыточным описаниям одних и тех же произведений, что позволяет нам создавать набор натуралистических, но недорогих данных.

В связи со сложной и наклонной природой вопросов о картинах, их визуальной сложностью и относительно небольшим объемом данных, предыдущие подходы, использованные для VQA поверх естественных изображений, невозможны для решения нашей задачи.

Описание искусства

Университетское соревнование (Великобритания) или викторина (США) ранее изучались для ответа на вопросы с использованием текстовых методов. Тем не менее, некоторые вопросы из миски викторины по своей природе визуальны в том, что их ответы являются произведениями искусства.

Идентифицировать картины по текстовым описаниям их содержания довольно сложно; например, во многих разных картинах изображены два человека (Стаг у Шарки, Жертва Исаака и Добрые духи).

Учитывая их разнообразный стиль, композицию и изображение, как научить компьютеры делать выводы о значении живописи?

Чтобы понять смысл, мы полагаемся на избыточные описания в картинах, предлагаемых несколькими текстовыми интервалами в этих вопросах.

В тексте это является проблемой разрешения конференции, поскольку несколько текстовых диапазонов относятся к одному и тому же объекту "реального мира". Тривиальные вопросы имеют сложные описательные группировки ключевых факторов.

Таким образом, для аннотации нашего набора данных с помощью LabelMe мы наносим текст из соответствующих групп ссылок на регионы рисунков, обеспечивая прямое отображение текстового диапазона на группы пикселей изображений и их пространственных характеристик.

В нашем наборе данных 128 картин, где каждая картина является ответом на один вопрос викторины.

Во-первых, мы относим каждый объект в картине к одному классу онтологии с восемью крупными и пятьдесят двумя мелкими классами.

Эта онтология имеет три уровня глубины и соответствует структуре синонима ImageNet.

Затем мы сопоставляем каждую группу опорных точек от текста вопроса к контуру изображения с картины. Поскольку вопросы задаются в ходе игры, упоминания часто носят косой характер, что затрудняет получение ответа только с помощью текста.

Например, описание дождя, пара и скорости позволяет избежать явного упоминания центрального объекта картины по имени "локомотив" в пользу его описания в виде круговой развязки (например, "транспортное средство").

Идентификация картин

Ссылаясь на один из вопросов в нашем наборе данных, мы ставим перед собой цель дать название картине, которую она описывает. Поскольку мы не концентрируемся на создании более качественных экстракторов элементов для картин, мы предполагаем, что у нас есть золотые визуальные аннотации (например, контуры объектов, классы и местоположение).

Эта задача является сложной из-за размера нашего набора данных (только 128 пар вопрос/краска), что препятствует обучению большинства моделей машинного обучения, а также из-за высокой сложности и неопределенности визуальной информации в данном тексте.

Сопутствующая работа

Наша работа непосредственно связана с предыдущей работой над ответами на визуальные вопросы и, в более общем плане, с применением различных видов зрения и языка.

В рамках визуального контроля качества ранее основное внимание уделялось вопросам содержания, в то время как мы сосредоточились на вопросах идентичности.

В связи с этим, Чжу и др. находят семантические связи между изображениями и текстом через модель внимания.

Мы используем опорную ссылку для соединения текстового и графического регионов, подобно Конгу и другим.

Однако не весь текст является "визуальным" и не все области изображения могут быть описаны в текстовом виде. Хотя мы фокусируемся на значении, структура текста также может быть выведена из иллюстраций.

Сохер и др. сравнивают предложения с изображениями; однако наш набор данных уникален тем, что текст намеренно наклонен (а не является прямым описанием), а наши изображения - картины - более разнообразны визуально.

Помимо вопросов качества изображения успешно использовались для создания подписи.

В то время как мы используем видение для помощи НЛП, другие пошли в противоположном направлении, вызывая соответствие между словами и видеоклипами, словами и моделями действий и моделями, языком, и восприятием.

Заключение и будущая работа

Основной вклад этой работы заключается в том, чтобы расширить ответы на сложные визуальные вопросы путем представления аннотированных наборов данных и простой системы, которая сумеет превзойти по эффективности систему ОК только в текстовом выражении.

Следующая задача заключается в расширении этого набора данных, с тем чтобы можно было использовать сквозные учебные линии для получения ответов на вопросы с использованием исходных изображений.

-2