В современном мире, наверное, уже без сомнений информационные технологии заняли свою твердо доминирующую позицию практически во всех отраслях. Где-то «гремят» проекты внедрения цифровых двойников производственных систем, кто-то на фондовых рынках с помощью сложных математических вычислений с нейронными сетями пытается выяснить как поведут себя показатели крупнейших голубых фишек при разных сценариях развития рынка, кто-то просто предсказывает погоду и прогнозирует поведение циклонов.
Бесспорно, информационные технологии проникли буквально в каждый аспект нашей профессиональной и личной жизни. К слову сказать, мы уже сами себя не представляем без любимого гаджета, в котором собраны все нужные нам сервисы и информация.
Безусловно, периодически возникают вопрос «- а что же дальше?». Эксперты говорят о существенных шагах технологической эволюции таких как нейроинтерфейсы, предсказательные модели в привычных нам сервисах, бурное развитие технологий виртуальной и дополненной реальности и другие технологии, которые изменят нашу жизнь завтра.
А что же сегодня? Основной вектор, который мы отчетливо наблюдаем последние 5 лет, сводится к интеграции «интернет-мира» и реального мира за счет создания специальных интерфейсов подключения привычных нам устройств к цифровому миру.
Так, например, появился целый класс IoT систем умного дома с интернет-чайниками и множеством датчиков, появились роботизированные системы, способные к интерактивному управлению из digital, и даже современные дроны научились не просто летать под управлением пульта ДУ, а выполнять поставленные задачи под контролем умной программы управления полетом.
Думая об интеграции еще глубже, мы понимаем, что самый главный интерфейс восприятия мира для человека — это его глаза. Именно они дают существенную долю информации об окружающем мире и событиях, происходящем в нем.
Использовать «картинку» для взаимодействия с миром для нас, людей - естественный процесс. Именно поэтому в свое время технологии видеонаблюдения получили бурное развитие. Ведь поставить множество камер и следить за порядком так удобно. Так и было до поры до времени, поскольку не было иных альтернатив. Для анализа видеопотока с камер требуются люди, которые будут это делать. А если что-то случилось, и оператор пропустил это событие, его восстанавливают по записи, что уже хорошо, но зачастую поздно, т.к. реагировать на события равно так, как мы реагируем в реальном мире через наши глаза - поздно...
С развитием ИТ технологиий и ростом возможностей быстрых вычислений появилось направление, которое в России получило название «видеоаналитика», то есть машинный контроль за событиями, объектами и их поведением с использованием данных, получаемых с видеокамеры.
Ведь если человек, смотря в камеру может определить появление человека, его поведение, наличие автотранспорта и иных объектов, то это сможет сделать и умный алгоритм за него.
Идея была гениальной и породила существенное количество стартапов и целых компаний, которые занялись разработками в этом направлении. Уже давно система распознавания лиц применяется в оперативно-розыскных мероприятиях, а распознавание номеров автомобилей - в выписывании всеми нелюбимых штрафов за превышение разрешенной скорости или нарушения иных правил ПДД. Казалось бы, что сфер применения таких технологий масса и они должны работать везде и всюду. Но это не так и разумный вопрос «- почему», как правило находит свой ответ в деталях применения технологий.
Поскольку данная статья предназначена, скорее, для широкой аудитории, не имеющей специального образования и знаний, то мы не будем уходить в технические подробности и использовать непонятные термины. Это хорошо сделано в профессиональных электронных изданиях, например, HABR. Мы же постараемся ответить на вопрос «почему технологии видеоаналитики не так быстро развиваются, как хотелось бы…».
Всё дело в том, что существующие алгоритмы, основанные на линейных и многомерных способах обработки визуальной информации, не идеальны, и требуется их адаптация под ту или иную задачу. Это первая часть проблемы.
Вторая ее часть заключается в сложности обучения нейронных сетей для идентификации тех или иных объектов, их свойств и событий.
Представьте себе привычный всем объект, например, «ножницы». Во-первых, существует множество видов ножниц, во-вторых, они все выглядят по-разному в разных условиях – дождь, туман, сумерки и так далее. Задача нейронной сети - сделать быстрое сопоставление 1 к N с максимальным коэффициентом точности распознавания, а для этого в процессе обучения нейронной сети нужно учесть все возможные сценарии распознавания, а сделать это весьма не просто...
Именно поэтому, к примеру, в красивом офисе нефтегазововой компании распознавание лица, как биометрическое средство прохода через турникет, работает хорошо (мы контролируем условия окружающей среды – свет, угол обзора и так далее), а на улице распознать лицо в полуанфас - куда более сложная задача.
Тем не менее технологии видеоаналитики развиваются достаточно динамично, и в скором будущем знания нейросетей будут достаточны, чтобы решить практически любую идентификационную задачу.
Более подробно о видеонаблюдении и видеоаналитике можно прочитать здесь.