Найти в Дзене
Сила данных

Как работают технологии компьютерного зрения

Что такое компьютерное зрение
Компьютерное зрение - в настоящий момент уже больше чем направление прикладной математики, это направление в бизнесе, инструмент для бизнеса, технология взятая на вооружение государством.
источник - фотобанк - depositphotos.com.
Задача в компьютерном зрении состоит в том, чтобы по данным фото или видео ответить на все те же вопросы, на которые бы ответил живой
Оглавление

Что такое компьютерное зрение

Компьютерное зрение - в настоящий момент уже больше чем направление прикладной математики, это направление в бизнесе, инструмент для бизнеса, технология взятая на вооружение государством.

источник - фотобанк - depositphotos.com.
источник - фотобанк - depositphotos.com.

Задача в компьютерном зрении состоит в том, чтобы по данным фото или видео ответить на все те же вопросы, на которые бы ответил живой человек. Есть алгоритмы решения для таких задач, как поиск объектов на изображении (например, лиц людей), их классификация и распознавание, отслеживание их перемещения в кадре и распознавание действий. Но текущие алгоритмы, в отличие от человека, не так хорошо распознают контекст и выделяют причинно-следственные связи.

Набор цветов и фигур для человеческого глаза - это набор координат для машины
Набор цветов и фигур для человеческого глаза - это набор координат для машины

Как работает компьютерное зрение

В основе современных систем компьютерного зрения лежат алгоритмы машинного обучения, точнее использование нейронных сетей. Один из основных этапов работы над ними является обучение, то есть загрузка в алгоритм большого набора примеров изображений, чтобы выделить характерные черты(метки или якоря), при помощи которых обнаруживаются нужные объекты. Также применяются ограничивающие боксы, как не трудно догадаться, для определения границ(габаритов) объекта. В процессе обучения сеть сама определяет элементы, которые будет искать в других изображениях, чтобы распознать их с минимальным количеством ошибок.

Где это применяется сейчас

На самом деле технологии компьютерного зрения уже широко распространены в нашей повседневной жизни. Разблокировка экрана смартфона, учётной запись Windows и письма "счастья" из ГИБДД знакомы, думаю, всем.

Пример ДатаСета, который использовали во время соревнований на Kaggle
Пример ДатаСета, который использовали во время соревнований на Kaggle

Даже такая задача, как классификация собак по породам или различение собак и кошек решаема при наличии средних знаний в области машинного обучения. Залогом успеха тут является то, что появилось много качественных и общедоступных ДатаСетов - подготовленных наборов тестовых данных(примеров) для обучения сетей. А также готовых библиотек на популярных языках, как Питон для упрощения разработки алгоритма под конкретные цели.

Оставляю ссылку на пример одного из таких алгоритмов с пошаговым описанием.

Что дальше

Явно, что технология не будет стоять на месте за счёт активно растущей доступности и проникновения в различные сферы бизнеса и нашей жизни. Прямо сейчас её используют и дорабатывают, чтобы повысить точность распознавания. Недавно властям многих стран пришлось проводить модернизацию систем распознавания лиц через публичные камеры наблюдения из-за того, что все начали носить маски на улицах. Во всю идёт тестирование FaceID, как ключа для оплаты покупок. Дальше будет больше: открытие двери дома, приветствие по имени в магазине, включение бодрящей музыки при распознавании уныния на лице и в финале "Старший Брат" - всё это ждёт нас уже в недалёком будущем.

Подписывайся и не пожалеешь! Ниже можно поставь большой палец вверх 👍🏻 моему скромному каналу и оставь комментарий - буду рад познакомится и обсудить тематику.