212 подписчиков

Нейронка и FaceID

4 ноября 20254 ноя 2025

7 мин

Привлекательность использования нейронных сетей для распознавания лиц может объясняться их нелинейностью. Благодаря этому этап извлечения признаков может быть более эффективным, чем при использовании линейных методов (таких как метод/теория случайных процессов Карунена-Лоэва). Одной из первых технологий искусственных нейронных сетей (Artificial Neural Networks, ANN), применённых для распознавания лиц, стала WISARD — однослойная адаптивная сеть, содержащая отдельную подсеть для каждого сохранённого человека [1]. Способ построения структуры нейронной сети играет решающую роль в успешном распознавании и сильно зависит от конкретного применения. Для обнаружения лиц использовались многослойный перцептрон [2] и свёрточная нейронная сеть (CNN) [3], так же тут описана гибридная нейронная сеть, сочетающая локальное выборочное изображение и самоорганизующуюся карту (Self-Organizing Map, SOM) . Для верификации лиц [4] была предложена многоуровневая пирамидальная структура. SOM обеспечивает кванто

Оглавление

От WISARD до FaceNet — как “доисторические” нейросети заложили фундамент современных систем безопасности
А теперь к системам безопасности.

Одной из первых технологий искусственных нейронных сетей (Artificial Neural Networks, ANN), применённых для распознавания лиц, стала WISARD — однослойная адаптивная сеть, содержащая отдельную подсеть для каждого сохранённого человека [1].

Способ построения структуры нейронной сети играет решающую роль в успешном распознавании и сильно зависит от конкретного применения. Для обнаружения лиц использовались многослойный перцептрон [2] и свёрточная нейронная сеть (CNN) [3], так же тут описана гибридная нейронная сеть, сочетающая локальное выборочное изображение и самоорганизующуюся карту (Self-Organizing Map, SOM) . Для верификации лиц [4] была предложена многоуровневая пирамидальная структура.

SOM обеспечивает квантование выборок изображения в топологическое пространство, где входы, близкие в исходном пространстве, остаются близкими и в выходном. Это даёт сокращение размерности и устойчивость к небольшим изменениям изображения. CNN последовательно извлекает всё более крупные признаки в иерархических слоях, обеспечивая частичную инвариантность к смещению, вращению, масштабу и деформациям.

Исследователи сообщили о 96,2% точности распознавания на базе данных ORL, содержащей 400 изображений 40 человек. Время классификации составило менее 0,5 секунды, однако обучение заняло около 4 часов.

В работе [5] использовалась нейронная сеть с вероятностным принятием решений (Probabilistic Decision-Based Neural Network, PDBNN), унаследовавшая модульную структуру от своего предшественника — Decision-Based Neural Network (DBNN) [6]. PDBNN может эффективно применяться для:
- детекции лиц, нахождения положения лица на изображении с фоном;
- локализатора глаз, определения позиций обоих глаз для генерации информативных векторов признаков;
- распознавания лиц.

PDNN не использует полностью связную топологию сети. Вместо этого она делится на подсети, каждая из которых отвечает за распознавание одного человека из базы данных. PDNN применяет гауссову функцию активации для нейронов, а выход каждой «подсети лица» представляет собой взвешенную сумму выходов нейронов. Иными словами, подсеть лица оценивает плотность вероятности с использованием модели смеси Гауссовых распределений (Mixture-of-Gaussians model).

По сравнению со схемой AWGN (Additive White Gaussian Noise), модель смеси Гауссовых распределений обеспечивает гораздо более гибкое и точное приближение временных плотностей вероятностей в пространстве лиц.

Схема обучения PDNN включает две фазы:
1 - каждая подсеть обучается на изображениях соответствующего лица;
2 - параметры подсетей уточняются с использованием отдельных примеров из других классов лиц (decision-based learning.
При этом не все обучающие выборки используются. Применяются только ошибочно классифицированные образцы. Если образец был ошибочно отнесён к неверной подсети, «правильная» подсеть корректирует свои параметры, чтобы сместить границу принятия решения ближе к этому образцу.

Система биометрической идентификации, основанная на PDBNN, сочетает достоинства нейронных сетей и статистических методов. Её распределённая вычислительная структура сравнительно проста для реализации на параллельных вычислительных системах. В работе [39] сообщалось, что распознаватель лиц на основе PDBNN способен распознавать до 200 человек и достигал 96% точности распознавания примерно за 1 секунду. Однако при увеличении числа людей вычислительная нагрузка резко возрастает.

В целом, методы на основе нейронных сетей сталкиваются с трудностями при росте числа классов (т.е. индивидуумов, лиц).

Кроме того, они плохо подходят для распознавания по одному эталонному изображению, поскольку для оптимальной настройки параметров системы требуется несколько обучающих изображений для каждого человека.

От WISARD до FaceNet — как “доисторические” нейросети заложили фундамент современных систем безопасности

Когда читаешь старые публикации про распознавание лиц, например такие, где рассказывают про WISARD, SOM или PDBNN, ловишь себя на мысли всё это уже было. Просто мы стали быстрее, компактнее и умнее.

1. WISARD (1980-е): Каждое лицо как отдельная подсеть.
На практике идеальный принцип “один профиль один шаблон”. Сейчас то же самое лежит в основе edge-распознавания, когда в терминале хранятся “векторные шаблоны” только своих сотрудников. Минимум вычислений, максимум приватности.

2. SOM + CNN (1990–2000-е): Гибридная архитектура с самоорганизацией и свёртками.
Звучит как научная диковинка, но именно из таких конструкций родились сегодняшние глубокие сети с предобработкой данных. Самоорганизующиеся карты (SOM) решали задачу “понимания контекста” и группировали похожие лица по топологии, снижая размерность. Сейчас это называют “embedding space”.

3. PDBNN (2000-е): Тогда уже думали о том, как нейросеть может сама обучаться на ошибках и не на всех примерах, а только на тех, где ошиблась. Сегодня это называется hard negative mining это ключевой приём в обучении современных моделей типа ArcFace или CosFace, где сеть учится “замечать различия между похожими лицами”.

4. Если сравнить цифры то получается что:
тогда — 96% точности за 1 секунду (на 200 человек),
сейчас — 99,8% на миллионах профилей (в режиме реального времени, на камере или NVR).
Но при этом фундамент остался прежним:
- нелинейность сети,
- компактное представление признаков,
- разделение по классам,
- адаптивное обучение на ошибках.

5. Современные решения — FaceNet, ArcFace, DeepFace: они по сути объединяют все старые идеи, но масштабируют их до небес. FaceNet ввёл концепцию триплетов (anchor–positive–negative), ArcFace добавил угловую метрику, усилив разделение классов, DeepFace от Meta использует многоступенчатые CNN и миллионы размеченных данных.

Если метафорически:
WISARD был “кустарным ремеслом”, PDBNN — “научным экспериментом”, а FaceNet и ArcFace — “индустриальным производством распознавания лиц”.

А теперь к системам безопасности.

Современные решения видеонаблюдения в СБ (СКУД, видеосерверы, биометрия) используют ровно те же принципы. Просто теперь:
- обучение идёт непрерывно (online learning),
- данные защищены (federated learning, локальные модели),
- вычисления перенесены на edge (смарт-камеры).

То есть между WISARD и сегодняшней Hikvision с ArcFace внутри дистанция не в 40 лет, а в одну архитектурную идею, просто доведённую до автоматизма. И вот как получается что современные камеры обладают такими, кажущимися чудесными, характеристиками:

Вот что может эта "малышка":

Есть два режима: общий режим и режим подсчета.
Общий режим: распознавание лиц; моментальный снимок (это когда камера делает фотку детектированного лица); оптимизация моментального снимка (выбирает наилучшее кадр наилучшего качества); оптимальная загрузка моментального снимка лица; улучшение изображения лица; экспозиция лица; извлечение атрибутов лица, включая 6 атрибутов (маска/борода/пол и т.п) и 8 выражений (эмоции); возможность создания моментального снимка или фотографии размером в один дюйм; стратегии создания моментального снимка (приоритет распознавания и оптимизация моментального снимка); фильтр угла обзора лица; настройка времени оптимизации.

Поддерживает добавление 5 групповых баз данных лиц; регистрацию людей по одному или группами; настройку сходства лиц; и поддерживает сравнение лиц с базой данных лиц, содержащей до 200 000 изображений лиц.

Режим подсчета: предлагает расширенный счетчик клиентов, отфильтровывает указанные лица из базы данных face и экспортирует отчеты как до, так и после удаления повторяющихся лиц.

И это камера сама делает, без каких либо дополнительных NVR, серверов или ПО. Ну или вот эта:

iDS-2CD8A46G2-XZHS(Y)

Обнаруживает до 60 целей одновременно, gоддерживает одновременное обнаружение и съемку человеческого тела, лица, автомобиля и немоторных транспортных средств, 7 атрибутов лица, 13 атрибутов человеческого тела, два атрибута транспортного средства, распознавание номерных знаков, распознает до 120 лиц одновременно, загружает изображения лиц фоном и крупным планом, до 10 библиотек лиц, по 30 000 лиц в каждой библиотеке, распознавание лиц с помощью моделирования, классификации и сравнения с лицами в библиотеке лиц

Вот он - ускоренный WISARD.

Литература:
[1] T.J. Stonham, “Practical face recognition and verification with WISARD,” Aspects of Face Processing, pp. 426-441, 1984.
[2] K.K. Sung and T. Poggio, “Learning human face detection in cluttered scenes,” Computer Analysis of Image and patterns, pp. 432-439, 1995.
[3] S. Lawrence, C.L. Giles, A.C. Tsoi, and A.D. Back, “Face recognition: A convolutional neural-network approach,” IEEE Trans. Neural Networks, vol. 8, pp. 98-113, 1997.
[4] J. Weng, J.S. Huang, and N. Ahuja, “Learning recognition and segmentation of 3D objects from 2D images,” Proc. IEEE Int'l Conf. Computer Vision, pp. 121-128, 1993.
[5] S.H. Lin, S.Y. Kung, and L.J. Lin, “Face recognition/detection by probabilistic decision-based neural network,” IEEE Trans. Neural Networks, vol. 8, pp. 114-132, 1997.
[6] S.Y. Kung and J.S. Taur, “Decision-Based neural networks with signal/image classification applications,” IEEE Trans. Neural Networks, vol. 6, pp. 170-181, 1995.