Аннотированный датасет всегда лучше неаннотированного. Если вы заказываете датасет у специализированных компаний, то проблем с этим не будут. Но если вы создаете его сами с нуля или находите что-то отдаленное в интернетах, то придется подзапариться. Или нет?
NVIDIA представила DatasetGAN – генератор синтетических изображений с аннотациями. Система требует в качестве входных данных до 40 вручную аннотированных изображений и превосходит существующие state-of-the-art модели.
Давайте взглянем на DatasetGAN поближе и разберемся, как устроен.
О синтетических данных и механизме DatasetGAN
Использование синтетических данных для обучения нейронных сетей становится все более популярным. Вам не нужно создавать большие и сложные датасеты, что значительно снижает трудозатраты. Генеративно-состязательные нейросети могут создавать бесконечное количество уникальных высококачественных изображений под ваши цели.
С другой стороны для создания алгоритмов обучения, например, систем компьютерного зрения требуются датасеты с большим количеством аннотаций. Так мы получаем два стула, но NVIDIA потихоньку пододвигает третий.
DatasetGAN – это генеративно-состязательная нейросеть, состоящая из генератора, который учится создавать реалистичные изображения, и дискриминатора, который учится отличать их от реальных изображений.
DatasetGAN работает по следующему принципу:
- Вы вручную аннотируете изображения
- Интерпретатор обучается на этих данных создавать аннотации объектов по пространству скрытых переменных.
Для создания реалистичных изображений в DatasetGAN используется технология NVIDIA StyleGAN. Генератор может быть обучен минимум на 16 вручную аннотированных изображениях. Конечно, больше - лучше, особенно если речь идет об аннотации сложных объектов. Но даже с 16 примерами DatasetGAN обладает эффективностью, сравнимой с полностью управляемыми системами, требующими в 100 раз больше аннотированных изображений. Нам это нравится? Да, нам это нравится
Как устроена нейрость DatasetGAN
После обучения используется только генератор, создающий новые изображений. Таким образом пространство скрытых переменных, используемое в качестве входных данных для генератора. Оно содержит семантическую информацию о сгенерированном изображении и, следовательно, позволяет создавать аннотации.
Специалисты NVIDIA создали обучающий датасет для своей системы, сгенерировав несколько изображений и сохранив связанные с ними скрытые переменные. Синтетические изображения были вручную аннотированы, а затем скрытые переменные сопрягались с аннотациями для обучения.
После этого датасет использовался для обучения ансамбля классификаторов на основе многослойных персептронов, используемых в качестве интерпретатора стилей. Входные данные классификатора состоят из векторов признаков, создаваемых нейросетью для генерации каждого пикселя, а выходные данные представляют собой метку для каждого пикселя.
Например, когда нейросеть генерирует изображение человеческого лица, интерпретатор формирует аннотации, указывающие на часть лица, например «нос» или «ухо».
Эффективность DatasetGAN и результаты испытаний
Чтобы оценить возможности DatasetGAN исследователи обучили интерпретатор на синтетических, вручную аннотированных изображениях людей, лиц, комнат, кошек, машин, птиц.
Чтобы продемонстрировать "силу" нашего DatasetGAN, мы сгенерировали наборы данных для 7 задач сегментации изображений, которые включают метки на уровне пикселей для 34 частей человеческого лица и 32 частей автомобилей. Наш подход значительно превосходит все полууправляемые базовые показатели и находится на одном уровне с полностью контролируемыми методами с использованием трудоемких аннотаций.
В каждом случае использовалось от 16 до 40 примеров изображений. Оценка эффективности нейросети, выполненная с использованием бенчмарков Celeb-A и Stanford Cars, показала, что DatasetGAN превосходит state-of-the-art модели.
Другие наши статьи:
Наши соцсети: