Найти в Дзене

Как нейросети дали компьютерам «зрение»?

Нейросети научили компьютеры «видеть», то есть распознавать и интерпретировать визуальную информацию.  Процесс происходит так: вместо анализа всей картинки сразу нейросеть использует маленькие фильтры (свёртки), которые сканируют изображение по частям, выделяя контуры, текстуры и формы. Каждый последующий слой свёрток опирается на предыдущий, что позволяет собирать из простых свойств более сложные, например, лица, дома или животных.  В процессе обучения сеть определяет, какие участки и признаки изображения важнее, и точность распознавания объектов становится всё выше. Для обучения нейросетей нужны большие объёмы размеченных данных — миллионы изображений с подписями, что на них изображено.  Главная особенность нейросетей — способность обучаться и адаптироваться к новым задачам. Именно такое самообучение позволило дать компьютерам, пусть пока и несовершенное, но «зрение».  Однако в отличие от человека, машины не видят в прямом смысле этого слова, они лишь вычисляют и выявляют паттерны.
Оглавление

Нейросети научили компьютеры «видеть», то есть распознавать и интерпретировать визуальную информацию

Процесс происходит так: вместо анализа всей картинки сразу нейросеть использует маленькие фильтры (свёртки), которые сканируют изображение по частям, выделяя контуры, текстуры и формы. Каждый последующий слой свёрток опирается на предыдущий, что позволяет собирать из простых свойств более сложные, например, лица, дома или животных. 

В процессе обучения сеть определяет, какие участки и признаки изображения важнее, и точность распознавания объектов становится всё выше. Для обучения нейросетей нужны большие объёмы размеченных данных — миллионы изображений с подписями, что на них изображено. 

Главная особенность нейросетей — способность обучаться и адаптироваться к новым задачам. Именно такое самообучение позволило дать компьютерам, пусть пока и несовершенное, но «зрение». 

Однако в отличие от человека, машины не видят в прямом смысле этого слова, они лишь вычисляют и выявляют паттерны.

Как устроены системы компьютерного зрения

Цифровое изображение — это матрица, где каждый пиксель — это некоторый элемент, содержащий число. В случае черно-белого изображения это число от 0 до 255, отражающее интенсивность серого.

Для цветного изображения это обычно комбинация трех цветов. Еще в позапрошлом веке первые цветные фотографии одновременно снимали на три камеры в разном цвете, а потом полученные кадры совмещали. И до сих пор цветные изображения часто раскладывают на те же три цвета — красный, зеленый и синий.

-2

Какие задачи мы можем решить?

  • Имитируя человека, мы можем на фотографии указать, где находится предмет, и отделить его от окружающих объектов. 
  • Можем ответить на вопрос, какая у человека позиция относительно других тел, и даже спрогнозировать по двумерной фотографии положение частей тела человека в 3D.
  • Можем отыскать лицо человека.
  • Имея априорные знания о движении, можем по позе человека на фотографии предположить, в каком направлении он бежит, или спрогнозировать, куда он будет двигаться далее.

Где сейчас используют нейросети

Некоторые из задач, которые я перечислю, можно решать и другими способами. Не надо думать, что нейросети покрывают все. Просто на данный момент это один из наиболее популярных и достаточно эффективных методов решения задач такого типа. Возможно, лет через пять появятся другие, более эффективные в конкретных приложениях архитектуры, которые будут отличаться от «классических нейросетей». 

Мысли про сохранность рабочих мест

Отдельная тема — это разговоры про сохранность рабочих мест. Не останутся ли люди без работы после внедрения всех этих технологий? Я полагаю, что проблема не столь катастрофична. Нейросети сокращают одни рабочие места и создают другие — связанные с поддержкой и обучением этих систем. Вдобавок они открывают новые рынки, где тоже будет нужна разработка и обслуживание.