Компьютерное зрение (Computer Vision, CV) — это область искусственного интеллекта, которая позволяет машинам «видеть», обрабатывать и анализировать визуальную информацию, а затем принимать решения или выполнять действия на основе этих данных. Системы компьютерного зрения классифицируются по задачам, которые они выполняют.
Основные задачи и классификация
Классификация изображений (Image Classification)
Суть: определение, к какому классу или категории относится основное содержание всего изображения.
Пример: система получает фотографию и определяет, что на ней изображена «кошка», «машина» или «дорожный знак».
Обнаружение объектов (Object Detection)
Суть: идентификация одного или нескольких объектов на изображении или в видеопотоке с одновременным локализацией каждого объекта с помощью ограничивающей рамки (bounding box).
Пример: в системе видеонаблюдения определяются и обводятся рамками «пешеходы» и «автомобили», присутствующие в кадре.
Сегментация изображений (Image Segmentation)
Суть: более детальная локализация объектов, чем при обнаружении. Изображение разделяется на области, соответствующие конкретным объектам или их категориям, с точностью до пикселя.
Семантическая сегментация: каждый пиксель изображения относится к определенному классу (например, «небо», «дорога», «здание»), без различения отдельных экземпляров одного класса.
Сегментация экземпляров: различаются отдельные объекты в пределах одного класса (например, несколько разных машин сегментируются как отдельные сущности).
Отслеживание объектов (Object Tracking)
Суть: слежение за движением одного или нескольких объектов с течением времени в видеопотоке.
Пример: отслеживание траектории движения мяча или конкретного человека в толпе.
Оптическое распознавание символов (Optical Character Recognition, OCR)
Суть: автоматическое распознавание текста на изображениях (например, с отсканированных документов, фотографий дорожных знаков или номерных знаков) и преобразование его в машинописный текст.
Оценка глубины (Depth Estimation)
Суть: определение расстояния до объектов в сцене, необходимое для 3D-моделирования и навигации автономных транспортных средств.
📸 Основные типы датчиков в современных системах компьютерного зрения
Датчики служат «глазами» системы компьютерного зрения, преобразуя физические данные об окружающем мире в цифровой формат, который может быть обработан компьютером.
1. RGB-камеры (видимый свет)
Принцип работы: захватывают изображение в диапазоне видимого света (как человеческий глаз), регистрируя информацию по трем основным цветам — красному (Red), зеленому (Green) и синему (Blue).
Использование: самый распространенный и базовый тип датчиков. Используются для большинства задач классификации, обнаружения и распознавания.
Разновидности: камеры с глобальным затвором (Global Shutter) — захватывают всю сцену одновременно (для быстро движущихся объектов) и камеры с построчным затвором (Rolling Shutter).
2. Датчики глубины (3D-датчики)
Эти датчики предоставляют информацию о расстоянии до объектов, что критически важно для робототехники, автономного вождения и дополненной реальности.
Стереокамеры (Stereo Vision):
Принцип работы: используют две стандартные RGB-камеры, расположенные на небольшом расстоянии друг от друга (подобно человеческим глазам). Глубина рассчитывается путем сопоставления общих точек на обоих изображениях и измерения разницы в их положении (диспаратности).
Камеры времени пролета (Time-of-Flight, ToF):
Принцип работы: измеряют время, которое требуется лучу света (обычно инфракрасному) для того, чтобы дойти от камеры до объекта и вернуться обратно. Чем дольше время, тем дальше объект.
Структурированный свет:
Принцип работы: проецируют на объект известный шаблон (например, сетку из точек или полос) и анализируют искажение этого шаблона, чтобы вычислить геометрию и глубину сцены.
RGB-D камеры: комбинируют стандартный RGB-сенсор с одним из вышеперечисленных датчиков глубины (например, ToF или структурированным светом).
3. LiDAR (Light Detection and Ranging)
Принцип работы: излучает лазерные импульсы и измеряет время, необходимое свету для отражения от объектов. Создает высокоточное трехмерное облако точек, представляющее окружающее пространство.
Использование: жизненно важен для автономных транспортных средств и создания подробных 3D-карт.
4. Тепловизионные (инфракрасные) камеры
Принцип работы: регистрируют тепловое излучение (длинноволновое инфракрасное излучение), испускаемое объектами. Позволяют «видеть» в полной темноте или при плохих погодных условиях (туман, дым).
Использование: системы безопасности, обнаружение пожаров, контроль промышленных процессов.
5. Мульти- и гиперспектральные камеры
Принцип работы: захватывают изображение в большом количестве узких спектральных диапазонов за пределами видимого спектра (например, в ближнем инфракрасном).
Использование: анализ химического состава или состояния объектов, невидимого для человеческого глаза (например, в сельском хозяйстве для оценки здоровья посевов или в пищевой промышленности для контроля качества).
Таким образом, современные системы компьютерного зрения опираются на широкий арсенал задач и разнообразие датчиков, каждый из которых предоставляет уникальную информацию для построения полной и точной модели окружающего мира.