Найти в Дзене
Город будущего

Что видит машина: обзор наиболее перспективных разработок в области CV и ML. 1 часть.

Спрос на системы компьютерного зрения растет — российский сегмент этого рынка к 2025 году достигнет 51,75 млрд рублей при среднегодовых темпах роста 20,4%. Основное применение системы машинного зрения находят в промышленности, ритейле, банковском секторе, в системах «умного» города. Среди наиболее перспективных направлений можно выделить следующие.

Распознавание жестов. Бесконтактное управление мультимедийной системой используется сегодня в некоторых автомобилях. Технологию можно применять и в более широком поле: для взаимодействия с любой «умной» домашней техникой. Пока разработчикам трудно «объяснить» машине, какие жесты она должна воспринимать и исполнять, а какие — игнорировать. Жест — это растянутое во времени событие, которые можно разложить на кадры. Чем больше кадров увидит система, тем лучше она сможет предсказать жест — поэтому с точки зрения алгоритма выгоднее сместить предсказание жеста ближе к концу раскадровки. Поэтому событием предлагается считать момент, когда совершено две трети жеста. Например, именно таким образом нейросеть ResNet-18 начинает предсказывать жест на основе анализируемых входных данных, за которые берется набор из 12 расширенных кропов лица (RGB). В качестве метрик используются кривые типа precision-recall: правильными срабатываниями считается первое событие, попавшее в интервал жеста, если он предсказан правильно. Все последующие, попадающие в тот же интервал, считаются ложными. Также к ложным относится все, не попавшее в интервал. Для большей эффективности предлагается использовать модуль темпорального сдвига (temporal shift module), который значительно сокращает время обработки и позволяет использовать обычные операции.

Компьютерное зрение и визуальный поиск. При разработке таких решений нужно иметь хорошую тестовую метрику. Основные сложности заключаются в дифференциации разных доменов: если один и тот же предмет сфотографирован в студийных условиях и на смартфон, система может не признать их тождество. А задача как раз и состоит в том, чтобы человек мог, например, снять понравившийся диван в реальности и найти его на сайте производителя. В основе технологии — нейросеть, которая извлекает из изображения признаки для решения downstream-задач. Для стабильной работы необходимо уделить большое внимание очистке — ведь поступающие данные часто довольно «грязные», что осложняет работу нейросети.