Как Рифкат Минниханов сумел переманить специалистов по компьютерному зрению в бюджетное учреждение и с их помощью создать искусственный интеллект, распознающий номерные знаки на авто.
Специалисты Центра "Интеллектуальные транспортные системы" курируют отдельное направление на форуме Kazan Digital Week, ежегодно собирая лучших экспертов страны и мира в одной географической точке.
Если вы хотите присоединиться к этому сообществу, подписывайтесь на одноименный Telegram-канал. А если вы хотите представить на форуме свою технологию, продукт или услугу, то вам следует вступить в Telegram-группу экспонентов или написать нам на почту: info.ascr@tatar.ru
Вместо предисловия
В 1993 году в Госавтоинспекцию Татарстана пришли восемь молодых въедливых парней, которые только что окончили физфак Казанского университета. Троих очень быстро переманили в коммерческие структуры, но команда всё равно собралась крепкая, чуть позже к ним подтянулись и ребята из КАИ. Главный автоинспектор Республики ставил перед молодыми людьми очень необычные для ГАИ задачи. Сказать честно, парни были ошарашены: человек в погонах говорил с ними об информационных системах, причём так что они сразу поняли - есть чёткое понимание перспективы открытых систем, которые станут главным трендом IT-рынка только через 10 лет.
Рифкат Минниханов: В то время готовых специалистов не было. Первый «транш» с физфака к нам пришёл в 1993 году. Отдельно стоит выделить Алексея Уточкина, который еще будучи студентом сделал нам программу для бухгалтерии. Потом этого парня у нас забрали. Даутов Ринат, Сафин Ильхам, Матвеев Юра, я может всех не назову… Ватютов, Галиаскаров, Гизатуллин, Гараев Марсель, Царствие ему небесное... Этот парень еще в 90-х годах, используя кейс-технологии, разрабатывал системы, которые только сейчас стали модными.
Делаем, а потом говорим
Студентам-технарям предлагалось принять участие в эксперименте государственного значения. Нужно было создать единую информационную систему госавтоинспекции. Делалось это всё без фанфар и пафоса. Нельзя сказать, что поддержки от государства не было, но всё держалось на честном слове. Это сейчас слово Минниханова имеет совсем другой вес и коннотации, а тогда приходилось брать на себя риски и ответственность. Так и родился принцип, который сегодня вспоминают те, кто начинал карьеру вместе с Рифкатом Миннихановым: Сначала делаем, потом говорим.
Пропасть
Сейчас проще - архитектуры известны, библиотеки доступны, есть структура рынка IT-кадров, а тогда ничего этого не было. Зато было понимание, что с помощью математики можно повлиять на уровень жизни, сделать её безопаснее. Осталось всего ничего сократить разницу межу этими "Что?" и "Как?", которая была пропастью. Так, началось взаимовыгодное сотрудничество Госавтоинспекции и вузов
Синергия прошлого и будущего
Они сделали. Система заработала и показала пример другим регионам. Именно тогда и создавался этот базис, которым спустя 20 лет воспользуются другие выпускники вузов - молодые специалисты в области компьютерного зрения. На основе искусственного интеллекта они создали систему, которая распознаёт государственные регистрационные знаки. Такие решения в мире существуют, но они чужие и платные, а эти парни сделали СВОЙ продукт, который не только помогает экономить по 6 млн рублей в год, но и оказался интересным для других регионов. Это тот случай, когда востребованные на рынке специалисты кратно повысили собственную стоимость за счет доступа к государственным базам данных и возможности создать IT-продукт, реально меняющий жизнь общества к лучшему.
В чём ноу-хау?
Система распознавания ГРЗ в мире существуют давно. В России - тоже. Но доступ к такого рода софту затрудняет его высокая стоимость. Нужно либо выкупать такое ПО полностью, либо платить абонентскую плату за каждый распознанный регистрационных знак. Если взять трафик Казани, то суммы получаются космические. Компании-разработчики понимают, что на выходе для государственного аппарата получается экономия на зарплатах сотрудников, которых заменяет искусственный интеллект. Вот тут и сыграла ставка, сделанная еще в 90-е. Оказалось, что те "мозги" (человеческие и программные), которые начали развивать еще 20 лет назад, возможно переформатировать под новые реалии.
Трое из КАИ
К этой задаче и подключились трое студентов КГТУ им. Туполева - Тихон Большаков, Тимур Аслямов и Артур Сабитов. У них не было опыта, не было понимания как это сделать и не было готового тимлида (руководителя группы разработки, который наставляет и заменяет разработчиков при необходимости), но у них были энергия и амбиции. Они точно знали, что раз "эта штука есть у других, значит её можно сделать и самим". Оставалось решить главную проблему обучения нейросетей: получить датасет. То есть, чтобы искусственный интеллект научился распознавать ГРЗ, ему нужно "скормить" огромное количество снимков ГРЗ с разметкой. Вот именно такой базы не было больше ни у одной Госавтоинспекции, а в Татарстане она была. Это и есть то самое наследие, которое позволило создать успешный и эффективный IT-продукт.
Первоначальный датасет из более чем 8 млн изображений был получен от ГИБДД. И самое главное - он был размечен операторами.
Парни понимали, что больших денег в государственном бюджетном учреждении "Безопасность дорожного движения" они не заработают, но им дали возможность поработать с реальным материалом и создать не какое-то приложение-однодневку, которое сглаживает ваши морщинки, а нечто реальное - систему, которая по-сути изменит жизнь общества в лучшую сторону.
Иллюзий не было - едва ли кто-то из знакомых и близких скажет, что-то позитивное, если узнает, что ты именно тот человек, которые приложил руку к камерам на дорогах, но эти ребята верят языку цифр. В 2004 году в Татарстане на дорогах погибло 882 человека, а в 2019 - 325... Понятно, что это не только из-за камер, но это одна из основных причин.
Рифкат Минниханов
Тяжесть ДТП зависит от скорости, а мы сбили скорость. И то что мы сбили скорость в Республике – это повлияло. Человек по-другому начинает говорить о том нужна ли Госавтоинспеция, нужны ли приборы только после того ,как случается трагедия с близкими, с друзьями. Также как с «ковидом»…
Было бы лукавством заявить, что именно альтруизм двигал Артуром, Тимуром и Тихоном. Разумеется, не только. Они понимали, что делают себе портфолио. Это и есть причина, по которой стоит идти работать в госучреждение. Каждый из них на практике освоил навыки, доступ к которым стоит огромных ресурсов. То есть, по-сути, они продолжали учиться и получать за это неплохую такую стипендию.
На выходе у них получилось создать систему, точность распознавания номерных знаков которой равняется 98,23%. То есть процент точности сопоставим с процентом точности самих комплексов фото-видеофиксации. На практике это означало, что можно отказаться от услуг операторов, которые делали это в ручном режиме. Только для Татарстана такой софт дал экономию в размере 6 млн рублей в год. Нет, это не значит, что людей уволили, просто повысилась эффективность соответствующих служб.
Тихон Большаков
Человек, который нарушил скорость в месте, где присутствует комплекс соответственно комплекс фиксирует его значение мгновенной скорости делается снимок снимок поступает в ЦАФАП. Вот раньше как было - этот снимок смотрели реально ли там тот номер, который опознал комплекс, проверяли марку, которая приходила из базы ГИБДД по этому номеру и соответственно выдавали предписание. То есть штрафы этому человеку выписывал человек, он выступал этим буфером проверочным между спектром и комплексом.
Тимур Аслямов
Законодательства в России требует, чтобы инспекторы перед тем как выписывать постановление о правонарушении проверяли эти данные. То есть действительно ли комплекс правильно распознал номер или действительно ли под таким номером зарегистрирован автомобиль в базе ГИБДД, действительно ли он такой марки и так далее. Чтобы снизить нагрузку на инспекторов, предварительно всё это просматривают операторы.
Артур Сабитов
А с нашей системой если говорить про то, как работает система уже вместе с нашим продуктом. По-сути, на первом этапе фиксации нарушений, всё тоже самое. На этапе промежуточных таблиц - всё тоже самое. А вот на этапе передачи из таблицы правонарушений происходят изменения. На месте, где раньше не было ничего между базой данных и оператором появляется так называемый оператор-робот. Который, по сути дела берёт и с помощью технологии компьютерного зрения распознаёт государственный регистрационный знак.
Слабые места
Сотрудники Центр ИТС признают, что это только начало. Впереди еще огромный пласт работы. Система пока не может отличить "Ладу Ларгус" от "Лады Гранты". Это не критично, да и ни одна система в мире пока этого сделать не сможет. Также система может не распознать машину в темное время суток. Сам номер считывается прекрасно, но формы фар из-за световых искажений могут ввести в заблуждение систему в части определения марки авто. Все эти проблемы решаемы. Выход в развитие самих нейронных сетей. В частности, системы GAN, которые позволяют "дорисовывать" фотографии. То есть, если на снимке появляется какое-то искажение (блики, артефакты, тени и т. д.), то обученная нейросеть сама исправляет картинку, причем делает это с долей вероятности, максимально близкой к достоверной. Сейчас с помощью нейросетей обрабатывается почти 60% всех снимков с дорожных камер, но с помощью сетей GAN этот процент можно будет увеличить до 80, а возможно и до 90%. Со временем, человеческий фактор и вовсе будет минимизирован.
Игорь Аникин:
Конечно очень часто в таких организациях могут не задержаться исходя из зарплат. Мы им должны предлагать условия для того чтобы они задержались, пытаться как-то иначе их мотивировать. Может быть не в денежном плане мотивация может быть моральной. Творческой - решение тех или иных задач, создание портфолио. Удержать всех таких ребят и постоянно удерживать конечно у нас не получится. Нужно строить систему, чтобы пока эти ребята за эти пять-шесть лет готовили замену себе. Для того чтобы новое поколение за эти 5-6 лет готовило новую ребят, которые придут и будет решать новые задачи.
У "нейронки Большакова, Аслямова и Сабитова" уже есть потенциальные покупатели - регионы, где тоже хотят усилить цифровую составляющую в сфере безопасности дорожного движения. Далеко не у всех есть база и кадры, которые готовы своими силами разработать систему распознавания государственно-регистрационных знаков. Проблема в том, что все используют разные подходы к разметке и передаче данных, и причина тривиальна: всё упирается в деньги, вернее в отчетность. Подходы определяются бюджетированием и в зависимости от того, какие это подходы: местный, республиканский или федеральный - такая и вырабатывается система управления.
Вместо P.S...
Тихон Большаков
Я здесь именно все классические методы компьютерного зрения, почти все модели, архитектуры нейронок изучил - обнаружение объектов, распознавание объектов изучил, то есть удалось поработать с ними на практике, проникнуть в их суть. Я вообще рассматриваю работу здесь, как толчок начальный. Я думаю, что вот этот толчок был дан и уже скоро надо будет двигаться дальше...