Умное машинное зрение: инсайдер рассказывает о том, устроен рынок российской видеоаналитики и что ждёт нас дальше.
Рассказывает Егор Ганин, заместитель вице-президента Mail.Ru Group, руководитель направления облачных и бизнес-сервисов. Сервисы видео- и аудиоаналитики Mail.ru созданы под его руководством.
— Как в вашей компании развивалась разработка в области видеоаналитики?
Не секрет, что у таких компаний, как Mail.Ru Group, достаточно мощная ресурсная база, позволяющая усилить и развить практически любой рынок. В свое время мы решили присмотреться к технологиям машинного обучения.
Если вспомнить историю, то первым действительно популярным проектом, созданным нейронными сетями, если так можно выразиться, была «Призма». Приложение весьма удачно пошумело в свое время. Аналог «Артиста» занимал первые места в мировом топе приложений. И Mail.Ru Group имела отношение к обоим аппам. Приложения по сути своей видоизменяли фотографии в стиле известных художников. Именно с этого мы начинали набирать экспертизу в сфере компьютерного зрения.
Потом появились более практичные решения. Например, «Облако» Mail.ru объединяет все фотографии конкретных людей по папкам, распознает достопримечательности и объекты на снимках. Если это Эйфелева башня, так и подписываем.
То есть начинали мы в B2C, и первые решения были заказаны нашими продуктовыми командами. Это не был облачный продукт в классическом виде, не SaaS и PaaS.
Но как и многие другие вещи, в которых мы приобрели экспертизу, мы решили предложить компьютерное зрение рынку. Так у нас появилось подразделение, которое стало предлагать зрение как B2B-решение. Проект назвали Vision. Из «коробочного» в нем только API: можно распознавать номера машин, людей и другие коробочные кейсы. Все остальные решения на данный момент разрабатываются индивидуально под заказчика.
Чуть позже у нас появился и Sounds — это аудиоаналитика, которая стала вполне логичным дополнением к зрению.
— В каком состоянии сейчас рынок видеоаналитики?
Этот рынок сейчас формируется. У всех есть понимание, что нужно двигаться в сторону внедрения машинного обучения, в частности видеоаналитики. Что это дешево, надежно, практично и в некоторых случаях даже экономично, потому что позволяет экономить на зарплате персонала и в перспективе окупается. При этом эффект стоит считать не путем прямого сравнения зарплаты охранника в магазине и стоимости оборудования с разработкой и внедрением. Нужно смотреть в целом на комплекс перспектив и масштабирование — тогда история становится интересной.
Возьмем примеры из ритейла. В этой отрасли у всех игроков есть похожая задача — развитие программы лояльности. Не проблема подключить камеры, программное обеспечение. В результате ритейлер будет автоматически добавлять информацию о клиенте в СRM — что, сколько и когда он покупал. Кажется, что это просто: ритейл напичкан камерами. Но проблема в том, что это камеры безопасности. Задача камеры — просто фиксировать происходящее. Те, кто их выбирал и устанавливал, не думали, что камеры будут использовать для видеоаналитики.
Поэтому существующие камеры, как правило, снимают в плохом качестве и сверху — видны только макушки людей. На этих данных можно построить программу лояльности разве что для клиники пересадки волос. Если же решать задачу нормально — нужно размещать камеры на уровне глаз покупателей, например на кассах. Но как только начинается разговор о необходимых изменениях, оказывается, что это уже заметные бюджеты для пилота.
— Ты говорил о том, что рынок видеоаналитики даже не в стадии роста, а только начинает формироваться. Ситуация характерна для всех отраслей?
Если говорить о зрелости и востребованности систем компьютерного зрения и оставить за скобками порноиндустрию, которая здорово драйвит и видеоаналитику, и многие другие современные технологии, то впереди планеты всей, пожалуй, системы управления доступом. В реальных бизнес-кейсах чаще всего используется автоматизация доступа по лицу. Эти кейсы просты и понятны. Во многом благодаря Голливуду — редкий современный блокбастер обходится без прохода кого-нибудь куда-нибудь или поиска кого-то по отпечатку или фото. Тут уже есть внятный спрос и, как результат, — готовые коробочные решения, которые подключаются к внутренним процессам организации.
Но сверх этого клиенты пока что плохо понимают потенциал видеоаналитики. Ведь можно не просто пускать человека куда-то, но и делать это по событию, например убедиться, что он в каске. Что он выполнил все необходимые манипуляции, покидая территорию опасного производства.
Подобные задачи не автоматизированы, приходится прыгать от клиента к клиенту в буквальном смысле слова, объясняя возможности современных технологий. И пока что решение, придуманное для одного заказчика, не подойдет другому. Именно это я имел в виду, когда говорил о зачаточном состоянии рынка. Все друг на друга непохожи, и никто пока не понимает, чего хочет.
— Приходится кастомизировать продукт под каждого клиента?
Да. Рано или поздно такие решения станут коробочными. Но для этого нужно в каждой индустрии сделать по 10–15 рабочих кейсов, чтобы хотя бы один кто-то захотел повторить.
— Каков уровень оснащенности качественной видеоаналитикой городов, крупных общественных и социальных объектов? Часто слышишь, что многие проекты уже функционируют, степень автоматизации достаточно высокая.
Эта история очень живая. Мы встречались с представителями многих крупных областей и регионов — у всех есть интерес и задача запустить проект «Умный город». Другое дело, что, по слухам, где-то «умный город» был реализован как город с бесплатными ларьками по раздаче книг. Я не проверял, правда это или нет, но это очень красивый пример, иллюстрирующий то, как «на местах» может восприниматься само понятие «умный город». Так что здесь нужен очень мощный консалтинг, который, кстати говоря, у нас тоже появился в результате переговоров. Мы формируем экспертную группу, погружаем ее в предметную область.
Но есть и хороший сценарий. Есть регионы, в которых хорошо знают эту сферу. С ними мы обсуждали установку звуковой аналитики на мачты городского освещения. И что немаловажно — запрос и желание заниматься этим были именно у заказчика. В столбы нужно было монтировать микрофоны, которые реагируют на сигналы опасности: столкновения машин, крики «пожар» и так далее. Этакий «Окей, столб». И это, на мой взгляд, классический пример правильных инициатив в части создания умных и безопасных городов. Разговор стал возможен только потому, что специалисты от региона четко знали, чего хотели.
— Раз заказчик не всегда понимает выгоду новых технологий, его потребности формулируют профессиональные команды подрядчика, производителя, вендора?
Без консалтинга или приобретенной внутренней экспертизы эти истории будут продаваться и внедряться очень медленно. Пройдут годы, пока пионеры запустят свои стартапы, которые станут популярными и востребованными во всем мире.
Поэтому Mail.Ru Group активно консультирует предпринимателей как в этой части их бизнеса, так и в вопросах создания облачной инфраструктуры.
— Ты считаешь это нормальной стадией развития рынка?
Дело в том, что это не просто рынок — это уже наука. И говоря о современных технологиях, это надо понимать. То есть, строго говоря, внедрение новых решений, созданных искусственным интеллектом — это не диалог продавца-покупателя, это разговор двух инженеров, владеющих навыками оценки и построения бизнес-процессов. И таких людей не хватает.
И компании, конечно, разные. Есть ребята, которые сориентировались и инвестировали в команды. Эти команды достаточно продвинутые, чтобы не изобретать постоянно велосипед. Мудрые команды идут за внешней экспертизой и применяют внешние решения, которые будут точно лучше, поскольку их создавали эксперты. А сама команда занимается специфическими бизнес-задачами и развитием компании, вместо инвестиций в непрофильные отрасли.
Есть бизнесы, владельцы которых далеки от ИТ. В лучшем случае там есть кто-то вроде директора по цифровым технологиям или инновациям. Эта должность — расстрельная практически в любой такой компании, потому что, если команда не собрана и нет карт-бланша, то, скорее всего, ему приходится очень тяжело. ИТ-директор один справиться не может, обращается к брендам вроде нас, чтобы мы помогли ему все это упаковать и «продать» своему руководству.
Чем дальше, тем сложнее будет внедрять современные технологии в бизнес — это всегда R&D, а исследования не могут быть быстрыми, бесплатными и гарантированно результативными. Если у компании есть желание использовать современные технологии — то надо быть готовым в них инвестировать. В правительственных, государственных, муниципальных организация это ещё сложнее. Это не бизнес, с ними сложно разговаривать на языке цифр, да и эффект в таких проектах измерять сложнее.
— Какое решение вы считаете наиболее перспективным в экономическом плане?
Например, распознавание лиц на массовых мероприятиях в контексте правительственных заказов. Эта история уже всем понятная и сформировавшаяся.
Нам интереснее идти в сторону b2b-продаж, в автоматизацию технических, технологических процессов на предприятиях. Туда, где аналитика помогает автоматизировать текущий процесс или найти проблему.
В добывающей промышленности специальные вахтовые сотрудники из руды достают арматуру — уж не знаю, как она туда попадает. Но кто-то всегда стоит на круглосуточной вахте и эту арматуру из руды достаёт. То же самое — забытые вещи в метро, когда в поле зрения появляется предмет, которого там раньше не было. Всё это легко автоматизировать. И эти вещи не связаны с распознаванием лиц, на которых специализируются другие компании на этом рынке. Такие задачи нам интересны. Задачи, в которых мы с вами применяем свои глаза, чтобы что-то заметить, и которые технологии уже позволяют автоматизировать.
Со звуковой аналитикой то же самое. Мы не идем в распознавание голоса, в синтез и анализ, которые уже кое-как людям знакомы. Мы идём в анализ технологических и производственных шумов. Например, в темном складе бестолку снимать, но по звуку можно определить проникновение. В том же автомобиле есть датчики состояния двигателя, но мы всё равно реагируем на звук: колесо застучало, колодки посвистывают, двигатель затроил. Это все можно легко отдать в аудио-аналитику. И на таких кейсах мы сосредоточены.
— Всё чаще принято прибегать к использованию переферийных вычислений при сборе информации, обработке части данных уже на стороне устройств. Число проектов с такими требованиями растет?
При внедрении решений по видеоаналитике мы столкнулись с тем, что в торговых центрах очень дорогой интернет. Все находящиеся в нем компании пытаются ограничиться оплатой онлайн-эквайринга и других затрат стараются не допускать. Наверняка рано или поздно всё поменяется, интернет в торговых центрах станет дешевле, но пока коммуникационные услуги там дороги.
Соответственно, у нас возникла проблема с дорогим трафиком. Потому что классический вариант — сфотографировал, отправил на серверы, где обрабатывается информация — не подходил. Поэтому мы установили сервер, который все раскладывал по полочкам, у клиента. Нам сервер уже отправлял поток бинарников или разложенные маски. То есть не сами фотографии, а результат обработки. В таком виде схема стала рабочей и более экономичной.
— Как будет развиваться рынок видеоаналитики в ближайшее время в нашей стране? Какие факторы будут на него влиять?
Рынок родится. Не только в контексте распознавания, госзаказов видео в метро и поиска злоумышленников. Прежде чем он станет массовым, должно пройти несколько десятков конференций, на них должны быть представлены сотни успешных кейсов.
— Сейчас в стране недостаточно успешных и массовых примеров реализации?
Публичных очень мало.
— Имеет ли значение цикл окупаемости, после которого можно говорить о преимуществах?
Я бы не сказал, что аудио- и видеоаналитика — дорогое решение, после внедрения которого нужно долго ждать эффект. Выгоды можно получить практически сразу.
Есть примеры и имиджевых историй. Мы сейчас пилотируем один из таких проектов. Например, на подъемниках стоят очереди. Как только камера фиксирует скопление людей, автоматически запускается еще один подъемник. Этот кейс не про деньги в буквальном смысле, но при этом он четко показывает пользу технологий.
— Часто слышишь от бизнеса, что эффект от автоматизации необязательно измерять деньгами, что предприниматели извлекают другие нематериальные выгоды от внедрения инноваций.
Заказчик часто приходит с идеей внедрить что-то интересное. А потом появляются цифры и факты: стоимость интернета, закупка оборудования, появляются дополнительные расходы. В конечном итоге деньги становятся главным аргументом. В бизнесе это так, и это правильно.
— Есть проект, который удивил тебя своим функционалом?
Я бы не назвал это удивлением. История о работе социальных статусов в Китае, когда граждан с низким статусом куда-то не пускают, им нельзя купить билет. Это как-бы эффект «приплыли». Китай в этой части впереди планеты всей. Это прямо одна из серий «Черного зеркала».
— Такое решение было бы невозможным, если бы не было интеграции с базами данных о людях. В РФ ведется много дискуссий по обмену данными и его качеству. Сталкиваетесь ли вы в своих проектах с проблемой использования данных?
Если говорить об обезличенных данных, то обогащать их, совмещать с другими данными, менять их формат технически несложно.
Но когда мы говорим о распознавании лиц, то данные уже не обезличены. Здесь возникает много вопросов, связанных с privacy. Что ты можешь о человеке передавать, в каком формате, какую информацию можно о нем получать? Эта задача в отрасли абсолютно не легализирована, не отрегулирована.
Я не занимаюсь предсказаниями, но думаю, придётся несколько раз ошибиться, несколько раз попасть в жернова этой системы и нам, и заказчикам, чтобы инициировать законодательную инициативу по этому поводу. Все знают, что есть приватная жизнь, ее надо защищать. А как ее соотносить с компьютерной аналитикой, что можно делать, что нельзя? И сейчас все работают в этой сфере, как слепые котята.
Автор статьи: Антон Кураш
Оригинал статьи размещен здесь: https://mcs.mail.ru/blog/nepahanoe-pole-rossijskogo-rynka-videoanalitiki/