Найти в Дзене
NeuroСore

Биометрия для обучения нейросетей: организация съёмок и сбор инклюзивного датасета

Одним из основных направлений компании NeuroCore, наряду с созданием нейросетей под ключ, является сбор и разметка данных для обучения моделей. В этом кейсе мы делимся нашим опытом в организации и реализации проекта по сбору биометрической информации, который включал съемки людей различных возрастных категорий для улучшения биометрических систем защиты от мошенников. О том с какими сложностями столкнулись, кто быстрее — бумеры или зумеры, и почему у команды сложилось впечатление, что поколение 45+ вымерло – читай в новой статье Neurocore. В июне прошлого года к нам обратился IT-интегратор из банковской сферы с запросом на организацию съёмки. Мы взяли задачу в работу, потому что имели опыт в подобных проектах и хотели расширить своё портфолио еще одним интересным кейсом. Если не читал о том как мы собирали данные с драками - бегом читать. После изучения ТЗ мы выполнили ряд бесплатные тестов. В ходе подобной подготовки мы рассчитываем цену на сбор данных и определяем итоговую стоимость п
Оглавление

Одним из основных направлений компании NeuroCore, наряду с созданием нейросетей под ключ, является сбор и разметка данных для обучения моделей. В этом кейсе мы делимся нашим опытом в организации и реализации проекта по сбору биометрической информации, который включал съемки людей различных возрастных категорий для улучшения биометрических систем защиты от мошенников. О том с какими сложностями столкнулись, кто быстрее — бумеры или зумеры, и почему у команды сложилось впечатление, что поколение 45+ вымерло – читай в новой статье Neurocore.

Концепция проекта

В июне прошлого года к нам обратился IT-интегратор из банковской сферы с запросом на организацию съёмки. Мы взяли задачу в работу, потому что имели опыт в подобных проектах и хотели расширить своё портфолио еще одним интересным кейсом. Если не читал о том как мы собирали данные с драками - бегом читать. После изучения ТЗ мы выполнили ряд бесплатные тестов. В ходе подобной подготовки мы рассчитываем цену на сбор данных и определяем итоговую стоимость проекта для клиента. При таком формате работы заказчик избегают многих потенциальных рисков — они не обязаны оплачивать работу пока не получат всю информацию по проекту: о стоимости датасета, сроках сбора и качестве готового материала. Бесплатный тест-драйв проекта помогает клиенту определиться подходят ли наши ресурсы и скиллы к его задачам, а нашей команде понять правильный ли вектор реализации мы избрали. Получив тестовые данные, клиент взял паузу в переговорах, и в чате воцарилась тишина вплоть до конца ноября того же года. По итогу заказчик подтвердил актуальность проекта, и команда приступила к его организации.

Целью клиента было разработать технологию, которая могла бы эффективно препятствовать  спуфингу.

[Что такое спуфинг?

Спуфинг, спуфинг-атака (англ. spoofing — подмена), в контексте сетевой безопасности — ситуация, в которой один человек успешно маскируется под другого путём фальсификации данных и позволяет получить незаконные преимущества. В банках это позволяет пройти защиты биометрии и снять деньги с счета клиента.]

У клиента были базовые наработки относительно необходимой технологии, но этих ресурсов не хватало для корректного функционирования модели.

Для сбора биометрии клиентов банка заказчик специально запилил собственное приложение, которое открывалось через веб-бразуер в смартфонах.

Именно это ПО мы использовали для дальнейшего сбора данных с разных девайсов. ТЗ по необходимому оборудованию  включало в себя разные модели телефонов, камер, ноутбуков, а также качественную вариативность вебкамер и браузеров. Материал должен был быть отснят при разном освещении и окружении.

Согласно предварительным расчётам, для проведения съёмки одного человека и отбора  качественного материала, который соответствует заявленным критериям, требовалось порядка 5-8 часов. Такие временные затраты обусловлены сложностью задачи строгим регламентом ТЗ, согласно которому нам необходимо было снять каждого человека 18-ю разными способами, используя телефоны, ноутбуки, вебкамеры разных производителей. Кроме этого, мы фиксировали возраст, расу, модели использованных устройств, ОС, браузер и его, а также иную мету по респондентам.

Часть используемого реквизита
Часть используемого реквизита

Кроме того, в подборе статистов команде нужно было соблюсти следующие требования:

1. Гендерное разнообразие (в соотношении 50/50);

2. Расовое разнообразие;

3. Разнообразие по возрасту.

Сбор данных с таким сложным ТЗ – это серьезный вызов для любой компании. По нашей информации клиент обратился к нам после того как несколько других подрядчиков нарушили сроки и требования ТЗ.

Вызовы и Решения

Проект требовал значительных усилий и ресурсов для привлечения участников разных возрастов. Мы сталкивались с множеством проблем, о части из них повествуем ниже в формате «проблема - решение». Пользуйтесь этим туториалом, и не повторяйте наших ошибок!

Проблема: ПО Заказчика и накладки с оборудованием

По условиям задачи мы должны были проводить все съемки с помощью веб-интерфейса на стороне Заказчика. На этапе предварительных тестов все было хорошо, но на практике с различных устройств и браузеров ПО Заказчика работало нестабильно. Веб-интерфейс очень часто радовал съемочную команду ошибками по типу: «В кадре обнаружено не настоящее лицо». Кроме того выяснилось, что камеры на каждом устройстве по-разному сжимают изображение.

Когда это обнаружилось, мы заменили оборудование, но это отняло драгоценное время. Также в ходе выполнения проекта вышла новая модель смартфона – её потребовалось включить в сбор по просьбе клиента.

Решение: если выполнение сбора предполагает использование разнообразного оборудования и ПО со стороны клиента – это повод заложить в смету дополнительные риски и учитывать это при согласовании и документации договоренностей. Иначе любые проблемы ПО заказчика могут автоматически стать вашими.

Проблема: Смена пайплайна

Разумеется на таком проекте были большие сложности с поиском людей. На этапе подготовки мы наметили подходящий пайплайн, который на практике не реализовался. Первой идеей было делать съемки на передвижной съемочной машине. Так мы бы сохранили мобильность, разнообразие по локациям, а также могли бы не зависеть от статистов, осуществляя съемки в удобное для нас время и в удобных для нас местах.

Однако, проанализировав смету проекта, а также взяв в расчет время года и погодные условия, мы пришли к выводу что выполнять проект таким способом нерентабельно. Дополнительно к такому решению нас подтолкнули следующие моменты:

1. Непредсказуемое количество людей для съемки;

2. Стоимость оборудования ~1 млн. За него мы несли материальную ответственность;

3. Высокая вероятность того, что на дорогу будем затрачивать много времени;
4. Отсутствие машины для съемок;

5. Слишком длительный цикл съемки. Не каждый человек готов терпеть незнакомого человека на своей территории от 5 до 10 часов.

В итоге мы пошли по пути аренды офиса, т.к. убедились что по множеству причин реализовать проект иным способом не выйдет.

Решение: разрабатывайте несколько пайплайнов под сложные сборы. В нашем случае мы изначально хотели использовать идею с мобильной съёмочной группой как панацею в сторону быстрых съемок и способ больше влиять на KPI съемок. Но, просчитав возможные материальные и производственные риски, пришли к выводу, что стремление к скорости съёмки может негативно сказаться на качестве итогового материала.

Проблема: Инклюзивность датасета

Отдельным пунктом вызвавшим сложности было требование ТЗ обеспечить разнообразие по возрасту, полам и расе.

По порядку. С расой разобрались относительно бескровно, так как большую часть запроса ТЗ составляли европеоиды – они наиболее распространённые в нашей стране. Самая большая проблема – это, естественно, люди 45+. У организаторов сложилось впечатление, что все представители этого поколения резко вымерли и попали в Красную книгу. Они практически не откликались на заявки и очень неохотно шли на контакт.

-3

Часто респонденты сливались прямо в день съемок. Один из съёмочных дней команда просидела весь день без работы, так как никто из статистов не приехал. Спасибо, что некоторые хотя бы писали “извините, сегодня не приедем”. Некоторые просто добавляли в ЧС и игнорировали организаторов.

Когда команда пытались разобраться в причинах, получали: “нет времени”, “не могу”  и прочие банальные оправдания.

-4
-5
-6
-7

Решая проблему низкой явки статистов, мы стали давать рекламу в пабликах, где рекламщики и киношники ищут массовку для съемок:

Но оттуда было не так много откликов, сколько требовалось.

Больше всего результатов мы получили благодаря сарафанке. К примеру, в курилке около офиса участник съемочной группы познакомился со студенткой. Они разговорились, и в итоге она пришла к нам на съемки. Как выяснилось позже, недалеко от офиса находилось общежитие. Так как мы ранее обменялись контактами, организаторы решили написать нашей новой подруге,  мол “есть ли у тебя кто на примете, кто ещё мог бы поучаствовать в съёмках?”. В итоге пришло довольно много студентов и возрастную группу до 45 лет мы закрыли относительно быстро. К тому же заказчик заложил достаточно большой бюджет на оплату работы статистов, что определённо привлекало желающих подработать.

По итогу сложилось так, что статистов набирали всеми доступными способами. Например, в подготовке к одной из съёмок, наш сотрудник Витя предложил своим тиммейтам в сетевой игре принять участие. Согласилась одна девушка. И в день съёмки она не только пришла, но и привела с собой двух друзей, что позволило полностью закрыть съёмочный день.

Если говорить про возрастную группу 45+, то тут целиком и полностью решает сарафанка. На рекламу этот возраст идет плохо, а по рекомендациям родственников/друзей – за милую душу.

Отдельно сработала авторская разработка съемочной команды: АКЦИЯ ПРИВЕДИ ДРУГА

В чем суть: приводишь с собой человека, получаешь к оплате 1к сверху. Таким образом пришло несколько мужчин в категории 50+. Этот подход сработал достаточно эффективно, потому что группа 45+, по сути, собралась только таким образом. На одну из съёмок даже пришел дедушка, который решил на старости лет подработать моделью – и пришел лишь потому, что другая участница 45+ рассказала о своём  опыте и пригласила поучаствовать.

Решение: если задача предполагает агрегацию разных людей в одном месте, то учитывайте сложность привлечения целевой аудитори с учетом особенностей возрастной группы. В нашем случае мы изначально предполагали, что 45+ будет сложно собирать, поэтому, к примеру, поставили для них самую высокую оплату из всех возрастных групп.

Проблема: Скорость работы людей разных возрастных групп

Не знаю что становилось причиной более настороженного отношения к подобному мероприятию у старшего поколения (может опыт МММ и других мошеннических организаций), но откликались статисты только по рекомендациям. Однако, когда дело доходило до съемок – старшее поколение однозначно справлялось лучше.

Комментарий куратора проекта:
На удивление, 45+ люди работали быстрее, чем 18-летние. Я не знаю, почему так, но статистика оказалась именно такой. В один из съемочных дней статистами были две 18-летние девушки и две женщины в возрасте 50-ти лет. И вот первые девушки потратили на съёмку материала весь день, а две женщины старшего возраста,  которые по логике должны испытывать бо́льшие трудности в использовании разного рода гаджетов, управились с работой за 5 часов.

Также поразила их автономность. Грубо говоря, пришли эти женщины, им поставили задачу и они все сами сделали. Единственное, в чем помогали организаторы – подсказывали, если возникали ошибки в приложении. В остальном они справлялись самостоятельно. А молодые девушки? Их нужно было водить буквально за руку на каждом шаге съёмки.

На мой взгляд, это многое говорит о поколении.

Решение: делайте поправку на человеческий фактор при расчете сроков реализации проекта, чтобы правильно оценить проект и не подвести заказчика. Детали и особенности по типу KPI одного исполнителя – ключевые для оценки проекта, но их почему-то часто оставляют за скобками.

Результаты

В итоге, мы собрали более 4000 видеозаписей, охватывающих возрастные группы от 18 до 50+ лет, с разнообразных устройств, девайсов и ОС. Эти данные будут использоваться для тестирования и обучения различных алгоритмов нейросетей, которые препятствуют мошенничеству в банковской системе.

Да, мы нарушили сроки, но клиент отнёсся к этому с пониманием, учитывая обоснованность возникших проблем, а также сложности, которые нельзя было заранее предсказать. В итоге мы справились со всеми поставленными задачами. Проблем было достаточно на разных этапах проекта, и все они были критическими для реализации, а значит затягивали весь проект.

Так как же избежать ошибок?

Подробно об этом мы рассказали выше, но если свести это к общим рекомендациям, то получится следующий чек-лист:

  1. По возможности на съемки делать команды от 3х человек. Так будет проще организовать процесс и каждый будет занят своим делом: кто-то будет помогать статистам, кто-то готовить следующее оборудование, кто-то объяснять новоприбывшим план действий, кто-то упаковывать видео и т.д. Чем больше различных функций разбито по людям, тем проще им выполнять проект в долгосрочной перспективе.
  2. Важно итеративно предоставлять данные заказчику — буквально чем чаще, тем лучше. Это помогает избежать ситуаций, когда отстнята большая басть материала, а у заказчика появились правки. Потому что единственный выход для правок внесённых постфактум — полностью переснимать материал.
  3. На этапе подготовки и утверждения проекта просчитывайте все возможные и невозможные на первый взгляд риски. В нашем случае изменение пайплайна и сложности с подбором статистов на некоторые возрастные группы могли привести к финансовым и временным потерям, если бы не были продуманы альтернативные пути реализации проекта. Не исключайте никакие варианты развития событий, ведь если на землю упадет метеорит, это сильно усложнит вам работу.

Если резюмировать, то проект по сбору биометрии был для нас отличной возможностью усовершенствовать технологии сбора и доказать их эффективность. Результаты проекта оставили клиента довольным, а датасет, уверены, уже активно используется в банковских системах и защищает тысячи людей от действий мошенников.

Хотите узнать больше о наших проектах и возможностях нейросетей? Вы можете заказать консультацию с нашими специалистами по телефону или оставить заявку на сайте Neurocore.

Чтобы следить за свежими новостями нашей компании, подписывайся на наш Телеграмм-канал и сообщество VK.