131 подписчик

DatasetGAN: генератор синтетических аннотированных датасетов NVIDIA

20 мая 202120 мая 2021

3 мин

Оглавление

О синтетических данных и механизме DatasetGAN
Как устроена нейрость DatasetGAN
Эффективность DatasetGAN и результаты испытаний

Аннотированный датасет всегда лучше неаннотированного. Если вы заказываете датасет у специализированных компаний, то проблем с этим не будут. Но если вы создаете его сами с нуля или находите что-то отдаленное в интернетах, то придется подзапариться. Или нет?

NVIDIA представила DatasetGAN – генератор синтетических изображений с аннотациями. Система требует в качестве входных данных до 40 вручную аннотированных изображений и превосходит существующие state-of-the-art модели.

Давайте взглянем на DatasetGAN поближе и разберемся, как устроен.

О синтетических данных и механизме DatasetGAN

Использование синтетических данных для обучения нейронных сетей становится все более популярным. Вам не нужно создавать большие и сложные датасеты, что значительно снижает трудозатраты. Генеративно-состязательные нейросети могут создавать бесконечное количество уникальных высококачественных изображений под ваши цели.

С другой стороны для создания алгоритмов обучения, например, систем компьютерного зрения требуются датасеты с большим количеством аннотаций. Так мы получаем два стула, но NVIDIA потихоньку пододвигает третий.

DatasetGAN – это генеративно-состязательная нейросеть, состоящая из генератора, который учится создавать реалистичные изображения, и дискриминатора, который учится отличать их от реальных изображений.

DatasetGAN работает по следующему принципу:

Вы вручную аннотируете изображения
Интерпретатор обучается на этих данных создавать аннотации объектов по пространству скрытых переменных.

Для создания реалистичных изображений в DatasetGAN используется технология NVIDIA StyleGAN. Генератор может быть обучен минимум на 16 вручную аннотированных изображениях. Конечно, больше - лучше, особенно если речь идет об аннотации сложных объектов. Но даже с 16 примерами DatasetGAN обладает эффективностью, сравнимой с полностью управляемыми системами, требующими в 100 раз больше аннотированных изображений. Нам это нравится? Да, нам это нравится

Как устроена нейрость DatasetGAN

После обучения используется только генератор, создающий новые изображений. Таким образом пространство скрытых переменных, используемое в качестве входных данных для генератора. Оно содержит семантическую информацию о сгенерированном изображении и, следовательно, позволяет создавать аннотации.

DatasetGAN синтезирует пары аннотированных изображений и создаёт большие высококачественные наборы данных с подробными пиксельными метками. На рисунке показаны 4 шага. Шаги 1 и 2 - Используйте StyleGAN и отметьте несколько синтезированных изображений. Обучите высокоэффективную ветку создавать меток. Шаг 3 - Автоматически создавайте огромный синтетический набор данных аннотированных изображений. Шаг 4 - Обучите свою модель с синтетическим набором данных и протестируйте на реальных изображениях.

Специалисты NVIDIA создали обучающий датасет для своей системы, сгенерировав несколько изображений и сохранив связанные с ними скрытые переменные. Синтетические изображения были вручную аннотированы, а затем скрытые переменные сопрягались с аннотациями для обучения.

После этого датасет использовался для обучения ансамбля классификаторов на основе многослойных персептронов, используемых в качестве интерпретатора стилей. Входные данные классификатора состоят из векторов признаков, создаваемых нейросетью для генерации каждого пикселя, а выходные данные представляют собой метку для каждого пикселя.

Например, когда нейросеть генерирует изображение человеческого лица, интерпретатор формирует аннотации, указывающие на часть лица, например «нос» или «ухо».

Эффективность DatasetGAN и результаты испытаний

Чтобы оценить возможности DatasetGAN исследователи обучили интерпретатор на синтетических, вручную аннотированных изображениях людей, лиц, комнат, кошек, машин, птиц.

Чтобы продемонстрировать "силу" нашего DatasetGAN, мы сгенерировали наборы данных для 7 задач сегментации изображений, которые включают метки на уровне пикселей для 34 частей человеческого лица и 32 частей автомобилей. Наш подход значительно превосходит все полууправляемые базовые показатели и находится на одном уровне с полностью контролируемыми методами с использованием трудоемких аннотаций.

В каждом случае использовалось от 16 до 40 примеров изображений. Оценка эффективности нейросети, выполненная с использованием бенчмарков Celeb-A и Stanford Cars, показала, что DatasetGAN превосходит state-of-the-art модели.

Статья от разработчиков

Github

Другие наши статьи:

Наши соцсети: