Повышение эффективности систем безопасности за счет аудиовизуальной конвергенции
В статье мы рассмотрим опыт создания и тестирования мультидетекторной платформы, которая объединяет аудиоаналитику с видеосистемами для преодоления существующих барьеров и повышения эффективности систем безопасности.
Денис Жуйков
Вице-президент Региональной общественной организации содействия развитию деятельности в сфере пожарной безопасности "Опора Пожарной Безопасности"
Сергей Иванов
Генеральный директор ООО "ИГПЛЮС", участник Сколково и московского инновационного кластера
Внедрение интеллектуальных систем безопасности, таких как видео- и аудиоаналитика, стало стандартом для повышения эффективности охраны объектов розничной торговли и критической инфраструктуры. Рост числа ситуационных центров напрямую связан с необходимостью компенсации ограничений человеческого внимания: статистика подтверждает, что без автоматизации оператор пропускает до 80% значимых событий уже через 22 мин. работы.
На практике применение видеоаналитики сталкивается с рядом ограничений: правовые нормы (ФЗ-572), зоны приватности, низкое качество видеопотока и освещенности. Для преодоления этих барьеров отрабатывается механизм интеграции аудиоаналитики с локальными видеосистемами в единую мультидетекторную нейроаналитическую платформу. Данная статья описывает практический опыт создания и апробации такой системы.
Текущее состояние и практические кейсы
Видеоаналитика повышает производительность операторов видеонаблюдения, экономит ресурсы за счет автоматизации мониторинга и анализа. Она мотивирует сотрудников обращать внимание на конкретный видеофрагмент, подсвечивая инциденты, снижая тем самым риск пропуска важных событий. Аналитик ситуационного центра ООО "ТелеЭра" Людмила Комарицина на круглом столе, посвященном антитеррористической безопасности, сказала: "По статистике, оператор ситуационного центра после 22 мин. наблюдения пропускает до 80% тревожных событий, если система не наделена видеоанатическими функциями. Автоматизация снижает влияние человеческого фактора, связанного с усталостью и ограниченной внимательностью".
Например, высокую эффективность доказал нейросетевой модуль обнаружения проноса товара без оплаты мимо сканера. Это отдельный модуль в системе контроля кассовых операций, являющийся частью видеосистемы. Он предназначен для оперативного предотвращения и выявления случаев мошенничества кассиров, в том числе в сговоре с посетителем. Принцип его работы заключается в фиксации перемещения товара в зоне сканирования. Если добавление товара в чек не произошло, а товар отдан покупателю, генерируется тревожное событие "пронос товара мимо кассы", оно приводит к потерям в магазине и является распространенным на объектах розничной торговли.
Сотрудники на объекте могут часами пересматривать архивное видео, могут потратить весь свой рабочий день и так ничего и не найти даже в одном небольшом магазине с тремя кассами. Размер хищения за один заход "своего покупателя" подчас составляет от 36 тыс. руб. и выше. В случае появления такого кассира (нарушителя) на объекте ущерб в месяц может превышать 150 тыс. руб. Программа же способна в течение пяти минут проанализировать события за весь рабочий день. Специалисту по предотвращению потерь потребуется еще минут 30, чтобы подтвердить или отменить подсвеченные системой инциденты и составить необходимые документы. Прямой эффект – экономия рабочего времени сотрудника безопасности.
Конкретный практический кейс. Десяти сотрудникам безопасности дали 10 дней и 10 магазинов, чтобы найти события хищений кассиром в сговоре со "своим покупателем". Инциденты выявлены не были. На том же пуле магазинов подключили программное обеспечение в составе видеосапиенса. Результат: за полчаса работы с видеосистемой один человек осуществил сбор информации об инцидентах, провел расследование и выявил хищения кассирами на сумму более 60 тыс. руб.
Сейчас многие крупные заказчики, компании, имеющие в управлении несколько физических точек хранения, производства или продаж, уже создали свой ситуационный центр. Некоторые подключили данную услугу на условиях аутсорсинга или всерьез задумываются об этом.
При этом стоимость содержания подключения к ситуационному центру обратно пропорциональна количеству аналитических модулей, интегрированных в видеосистему. Современные видеосистемы при фиксации инцидента отображают в интерфейсе программы соответствующее сообщение, которое можно подтвердить или отклонить. Если сотрудник службы видеонаблюдения отвлекся, то через заданное время сработает таймер и сработает триггер (рис. 1).
Недостатки и ограничения применения
Важным фактором эффективного применения высокотехнологичных систем является возможность их повсеместного использования. Здесь есть определенные моменты, которые следует принимать во внимание.
Нормативно-правовые аспекты
Согласно Федеральному закону № 572-ФЗ от 29.12.2022 сбор биометрических данных осуществляется добровольно. Физическое лицо имеет право управлять своим согласием, может в любой момент отозвать его и требовать удаления данных. При этом регулируется только автоматическая идентификация и аутентификация. Исключения сделаны для оперативнорозыскных действий.
Вопрос о возможности применения распознавания лиц в ритейле был поднят экспертами секции интеллектуальных систем безопасности Гильдии негосударственной сферы безопасности при Московской торгово-промышленной палате (МТПП). Основным аргументом "за" является то, что обсуждаемые базы данных обезличенные и содержат только векторы изображений лиц, что исключает возможность направления запроса на получение согласия от субъектов. Под действие закона также не подпадает технологический процесс, при котором физический сотрудник ситуационного центра подтверждает сходство лично.
Своим письмом от 02.09.2024 № П24-299048 Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации, регулятор в этой области надзора, сообщило, что по результатам рассмотрения обращений МТПП, содержащих изложение технического процесса сбора, обработки и хранения данных в информационно- аналитической системе видеоаналитики для распознавания лиц, цели ее применения, а также типовые схемы работы указанной системы, в описанном процессе признаки аутентификации, относящейся к сфере регулирования Федерального закона № 572-ФЗ, не выявлены. Таким образом, есть возможность применения информационно-аналитических систем распознавания лиц на частных объектах.
Ограничения в определенных зонах
Ограниченно использование подобных систем в особых, "приватных" зонах, например в туалетах и раздевалках, где применение видеонаблюдения запрещено законодательством или этическими нормами. Ст. 150 и 150.2 прямо указывают на защиту права человека на неприкосновенность личной жизни и запрещают незаконное вмешательство и раскрытие личной информации без согласия.
Вместо видеонаблюдения в этих зонах предлагается использовать аудиоаналитику.
Этические вопросы применения распознавания лиц
Опрос студентов в День знаний в этом году показал, что современная молодежь практически не испытывает опасений по поводу применения технологий распознавания лиц: 98% из них спокойно относятся к таким системам в общественных местах, если данные не попадают в Интернет и система работает локально.
Этические риски, связанные с приватностью, для них минимальны при условии прозрачной обработки данных и гарантированной локализации. Решением выступает внедрение локальных версий, полностью исключающих передачу биометрической информации третьим лицам и в облачные сервисы.
Качество видеопотока
В текущих условиях нестабильного интернет-соединения качество видеопотока значительно влияет на эффективность распознавания лиц. Прямая передача видеоданных в облако или на сервер может сопровождаться потерями кадров, снижением разрешения и задержками, что ухудшает точность идентификации. Поэтому оптимальным решением является использование локальной версии системы, которая обрабатывает видео непосредственно на месте, минимизируя зависимость от сети. При этом в случае необходимости часть данных (например, фото лиц) может передаваться внешним серверам для дополнительного анализа или хранения.
Освещенность
В условиях низкой освещенности использование видеокамер для распознавания лиц оказывается проблематичным, так как качество изображения сильно снижается, что ведет к уменьшению точности идентификации.
К применению дорогих тепловизионных камер, обеспечивающих возможность распознавания на основании теплового излучения лица, устойчивых к темноте, макияжу, очкам и другим визуальным изменениям, подавляющее большинство представителей бизнеса не готовы по финансовым соображениям.
Альтернативой им может быть применение аудиоаналитики, которая анализирует звуковые сигналы и помогает в обеспечении безопасности без необходимости визуального контроля. Таким образом, комбинирование видеокамер и аудиоаналитики позволяет комплексно решать задачи контроля в условиях плохой освещенности, сохраняя в целом высокую точность и надежность работы систем безопасности.
Систематизированный анализ возможности решения текущих задач приведен в табл. 1.
Возможности аудиоаналитики
Популяризация и разъяснительная работа по эффективности видесапиенсов сейчас ведется очень активно, локальное программное обеспечение на отечественном рынке имеется, ситуационные центры также набирают все больше популярности вследствие своей высокой результативности. В то же время средства аудиоаналитики в настоящее время в большей степени используются в маркетинговых целях и сами программы установлены на дорогостоящих серверах крупных дата-центров.
С учетом проведенного анализа прогнозируется, что интеграция возможностей аудиоаналитики с локальными видеосапиенсами даст значимый повышенный эффект, добавляя аудиоинформацию к традиционному видеонаблюдению. Основное преимущество заключается в способности обнаруживать и классифицировать звуковые события в режиме реального времени, что позволяет выявлять угрозы даже в условиях ограниченной видимости или в слепых зонах видеокамер. Технология основана на использовании IP-микрофонов и алгоритмов искусственного интеллекта, которые способны различать характерные звуковые сигнатуры различных событий с высокой точностью, – это является крайне важным для критических угроз.
Звук распространяется во всех направлениях и может проходить через препятствия, что делает аудиоаналитику эффективной даже в условиях ограниченной видимости или в областях, недоступных для видеокамер. Это особенно ценно для обеспечения безопасности в сложных архитектурных пространствах, где установка достаточного количества камер может быть проблематичной или дорогостоящей.
Кроме того, звуковые события часто предшествуют визуальным проявлениям угрозы. Например, звуки взлома, шаги злоумышленника или звуки подготовки к нападению могут быть обнаружены до того, как нарушители попадут в поле зрения камер.
Технологии аудиоаналитики
Принцип работы заключается в интеллектуальной обработке звука современными системами аудиоаналитики и использовании сложных алгоритмов машинного обучения для обработки звуковых потоков (рис. 2).
Технология работает путем захвата аудиосигналов через встроенные или подключенные микрофоны, последующего анализа спектральных характеристик звука и сравнения их с базой данных известных звуковых образцов. Ключевая особенность заключается в том, что система анализирует не только громкость звука, но и его частотные характеристики, временные паттерны и другие акустические параметры, что позволяет точно идентифицировать природу звукового события.
Концептуально процесс обработки звукового сигнала включает несколько этапов: его первичную фиксацию, преобразование в цифровой формат, применение алгоритмов фильтрации для устранения фонового шума, извлечение характеристических признаков и классификацию с использованием предварительно обученных моделей нейронных сетей (рис. 3).
Выделить голос говорящего и заглушить фоновый шум позволяют микрофонные массивы, вмонтированные в корпус одного устройства. Заявленное производителями покрытие площади достигает 25 кв. м с углом захвата до 240 град. Для определения местоположения источника звука в помещении применяется метод триангуляции, основанный на использовании потолочных микрофонов. Этот метод заключается в анализе временных различий в поступлении звукового сигнала на несколько микрофонов, размещенных на потолке.
Как работает триангуляция звука? Несколько микрофонов размещаются на потолке помещения. Каждый микрофон фиксирует момент прихода звука, например хлопка, голоса или другого короткого сигнала. По разнице времени прихода звукового сигнала (называемой временной задержкой, TDOA, – Time Difference оf Arrival) вычисляется расстояние от каждого микрофона до возможного источника звука. Если известно расстояние до звукового события от трех (или более) микрофонов, то эти расстояния определяют окружности (или сферы, если учитывать высоту). Пересечение таких радиусов формирует точку (или небольшой район), где находился источник звука.
Обладая вышеуказанными характеристиками, современные системы аудиоаналитики способны классифицировать широкий спектр звуковых событий, связанных с безопасностью. В табл. 2 приведены заявленные производителями точности определения источника звука.
Из информации табл. 2 видно, что, распознавая заранее заложенные в базу звуки и слова, аудиоаналитика предоставляет ценную контекстную информацию. Например, человек, бегущий на видео, может вызывать подозрения, но если система одновременно обнаруживает крики о помощи, это кардинально меняет интерпретацию ситуации. Звуковая информация может указывать на наличие нескольких участников инцидента, направление их движения, интенсивность конфликта и другие важные детали, не попадающие в область видимости видеокамер.
Позитивные перспективы практического применения аудиоаналитики активно обсуждаются уже несколько лет. Так, например, эксперты журнала "Системы безопасности" на вопрос "Какой должна быть отработка тревожных событий в распределенных торговых сетях?" отмечали, что аудиоаналитика важна, но пока мало распространена. В рамках заочного круглого стола "Программные модули и системы видеоаналитики" того же журнала (2022 г., № 5) эксперты высказывали мнение, что объекты образования недостаточно охвачены видеосапиенсами, как раз там могут найти применение технологии на основе детекции лиц и аудиоаналитика.
В 2025 г. в одной из московских школ начат пилотный проект автоматической фиксации и уведомления о фактах буллинга в туалетах. В рамках данного пилота в санузлах размещены микрофоны. На рабочем месте сотрудника охраны имеется два компьютера: на одном аудиоаналитическая система, на другом – клиентское рабочее место видеонаблюдения. Перед входом в санузел установлена видеокамера. При поступлении тревожного сигнала от управляющего микрофоном программного обеспечения сотрудник ищет в системе видеонаблюдения камеру, направленную на дверь санузла, и начинает контролировать выходящих.
Несмотря на пользу такого решения, охранник выполняет слишком много действий. Большинство современных систем аудиоаналитики разработаны с учетом совместимости с существующей инфраструктурой безопасности. Это позволило создать комплексную систему безопасности, где аудиособытия автоматически активируют заданные алгоритмы видеосапиенсов для более оперативного реагирования на инциденты. В созданной мультидетекторной нейроаналитической системе все события отображаются в одном рабочем интерфейсе (рис. 4).
В перспективе, по мере развития технологий искусственного интеллекта и интеграции с концепциями умных городов, мультидетекторная нейроаналитика будет играть все более важную роль в обеспечении общественной безопасности. При этом у бизнеса уже сейчас есть отечественные готовые недорогие технологические и программные решения, повышающие уровень безопасности объектов.
Иллюстрации предоставлены авторами.
Иллюстрация к статье сгенерирована @gigachat_bot