8 подписчиков

МАГИЯ ВОЗМОЖНОСТЕЙ: КАК ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ МЕНЯЕТ ИГРУ В ОБЛАСТИ КОМПЬЮТЕРНОГО ЗРЕНИЯ

2 июля 20232 июл 2023

3 мин

Представьте себе шеф-повара, который умеет создавать блюда (генерация), и гурмана, который умеет их оценивать (распознавание). Оба обладают уникальными навыками, но что, если бы эти две способности можно было объединить в одной системе? Именно такую систему недавно разработали ученые из лаборатории компьютерных наук и искусственного интеллекта MIT в сотрудничестве с Google. Они создали систему компьютерного зрения под названием MAGE (Masked Generative Encoder), которая совмещает задачи генерации и распознавания изображений. MAGE работает не с исходными пикселями, а с семантическими токенами, представляющими собой компактные, но абстрактные версии участка изображения. Все эти токены образуют абстрактную версию изображения, которую можно использовать для сложных задач обработки, сохраняя при этом информацию в исходном изображении. Используя эту технику, MAGE может предварительно обучаться на больших наборах данных изображений без меток. Система начинает "чудо", когда использует "модел

MAGE работает не с исходными пикселями, а с семантическими токенами, представляющими собой компактные, но абстрактные версии участка изображения. Все эти токены образуют абстрактную версию изображения, которую можно использовать для сложных задач обработки, сохраняя при этом информацию в исходном изображении. Используя эту технику, MAGE может предварительно обучаться на больших наборах данных изображений без меток.

Система начинает "чудо", когда использует "моделирование с маскированными токенами". Она случайным образом скрывает некоторые из этих токенов, создавая неполный пазл, а затем обучает нейронную сеть заполнять пробелы. Таким образом, она учится понимать шаблоны на изображении (распознавание изображений) и генерировать новые (генерация изображений)

Примечательно, что MAGE может применять различные стратегии маскирования во время предварительного обучения, что позволяет ей обучаться для любой задачи, будь то генерация изображений или их распознавание, в рамках одной и той же системы. "Способность MAGE работать в 'пространстве токенов', а не в 'пространстве пикселей', приводит к четкому, детализированному и высококачественному созданию изображений, а также к семантически богатым представлениям изображений. Мы надеемся, что это откроет путь к созданию более продвинутых и интегрированных моделей компьютерного зрения", - говорит Тянхун Ли, аспирант кафедры электротехники и компьютерных наук MIT и автор исследования.

MAGE также позволяет генерировать изображения по заданным условиям. Пользователи могут указать определенные критерии для изображений, которые они хотят, чтобы MAGE сгенерировала, и система создаст соответствующее изображение. Она также способна выполнять задачи редактирования изображений, такие как удаление элементов из изображения, сохраняя при этом его реалистичный вид.

Система MAGE также отлично справляется с задачами распознавания. Благодаря своей способности предварительно обучаться на больших немаркированных наборах данных, она может классифицировать изображения, используя только выученные представления. Кроме того, она превосходно справляется с обучением на малых выборках, показывая впечатляющие результаты на больших наборах данных изображений, таких как ImageNet, имея всего лишь небольшое количество размеченных примеров.

Проверка производительности MAGE показала впечатляющие результаты. С одной стороны, она установила новые рекорды в генерации новых изображений, значительно превзойдя предыдущие модели. С другой стороны, MAGE заняла первое место в задачах распознавания, показав точность 80,9% в линейном зондировании и точность 71,9% в 10-кратном обучении на ImageNet (это значит, что она правильно идентифицировала изображения в 71,9% случаев, когда у нее было только 10 размеченных примеров из каждого класса).

Несмотря на свои сильные стороны, команда исследователей признает, что MAGE - это работа в процессе. Процесс преобразования изображений в токены неизбежно приводит к некоторой потере информации. Они стремятся исследовать способы сжатия изображений без потери важных деталей в будущих работах. Команда также намерена протестировать MAGE на более крупных наборах данных.

MAGE - это прорыв в области компьютерного зрения, который успешно использует синергию этих двух задач и достигает современного уровня их выполнения в одной системе. Эта инновационная система имеет широкий спектр применений и имеет потенциал вдохновить многие будущие работы в области компьютерного зрения.