611 подписчиков

Классификация современных систем компьютерного зрения

30 октября 202530 окт 2025

4 мин

Компьютерное зрение (Computer Vision, CV) — это область искусственного интеллекта, которая позволяет машинам «видеть», обрабатывать и анализировать визуальную информацию, а затем принимать решения или выполнять действия на основе этих данных. Системы компьютерного зрения классифицируются по задачам, которые они выполняют. Основные задачи и классификация Классификация изображений (Image Classification) Суть: определение, к какому классу или категории относится основное содержание всего изображения. Пример: система получает фотографию и определяет, что на ней изображена «кошка», «машина» или «дорожный знак». Обнаружение объектов (Object Detection) Суть: идентификация одного или нескольких объектов на изображении или в видеопотоке с одновременным локализацией каждого объекта с помощью ограничивающей рамки (bounding box). Пример: в системе видеонаблюдения определяются и обводятся рамками «пешеходы» и «автомобили», присутствующие в кадре. Сегментация изображений (Image Segmentation) Суть:

Основные задачи и классификация

Классификация изображений (Image Classification)

Суть: определение, к какому классу или категории относится основное содержание всего изображения.

Пример: система получает фотографию и определяет, что на ней изображена «кошка», «машина» или «дорожный знак».

Обнаружение объектов (Object Detection)

Суть: идентификация одного или нескольких объектов на изображении или в видеопотоке с одновременным локализацией каждого объекта с помощью ограничивающей рамки (bounding box).

Пример: в системе видеонаблюдения определяются и обводятся рамками «пешеходы» и «автомобили», присутствующие в кадре.

Сегментация изображений (Image Segmentation)

Суть: более детальная локализация объектов, чем при обнаружении. Изображение разделяется на области, соответствующие конкретным объектам или их категориям, с точностью до пикселя.

Семантическая сегментация: каждый пиксель изображения относится к определенному классу (например, «небо», «дорога», «здание»), без различения отдельных экземпляров одного класса.

Сегментация экземпляров: различаются отдельные объекты в пределах одного класса (например, несколько разных машин сегментируются как отдельные сущности).

Отслеживание объектов (Object Tracking)

Суть: слежение за движением одного или нескольких объектов с течением времени в видеопотоке.

Пример: отслеживание траектории движения мяча или конкретного человека в толпе.

Оптическое распознавание символов (Optical Character Recognition, OCR)

Суть: автоматическое распознавание текста на изображениях (например, с отсканированных документов, фотографий дорожных знаков или номерных знаков) и преобразование его в машинописный текст.

Оценка глубины (Depth Estimation)

Суть: определение расстояния до объектов в сцене, необходимое для 3D-моделирования и навигации автономных транспортных средств.

📸 Основные типы датчиков в современных системах компьютерного зрения

Датчики служат «глазами» системы компьютерного зрения, преобразуя физические данные об окружающем мире в цифровой формат, который может быть обработан компьютером.

1. RGB-камеры (видимый свет)

Принцип работы: захватывают изображение в диапазоне видимого света (как человеческий глаз), регистрируя информацию по трем основным цветам — красному (Red), зеленому (Green) и синему (Blue).

Использование: самый распространенный и базовый тип датчиков. Используются для большинства задач классификации, обнаружения и распознавания.

Разновидности: камеры с глобальным затвором (Global Shutter) — захватывают всю сцену одновременно (для быстро движущихся объектов) и камеры с построчным затвором (Rolling Shutter).

2. Датчики глубины (3D-датчики)

Эти датчики предоставляют информацию о расстоянии до объектов, что критически важно для робототехники, автономного вождения и дополненной реальности.

Стереокамеры (Stereo Vision):

Принцип работы: используют две стандартные RGB-камеры, расположенные на небольшом расстоянии друг от друга (подобно человеческим глазам). Глубина рассчитывается путем сопоставления общих точек на обоих изображениях и измерения разницы в их положении (диспаратности).

Камеры времени пролета (Time-of-Flight, ToF):

Принцип работы: измеряют время, которое требуется лучу света (обычно инфракрасному) для того, чтобы дойти от камеры до объекта и вернуться обратно. Чем дольше время, тем дальше объект.

Структурированный свет:

Принцип работы: проецируют на объект известный шаблон (например, сетку из точек или полос) и анализируют искажение этого шаблона, чтобы вычислить геометрию и глубину сцены.

RGB-D камеры: комбинируют стандартный RGB-сенсор с одним из вышеперечисленных датчиков глубины (например, ToF или структурированным светом).

3. LiDAR (Light Detection and Ranging)

Принцип работы: излучает лазерные импульсы и измеряет время, необходимое свету для отражения от объектов. Создает высокоточное трехмерное облако точек, представляющее окружающее пространство.

Использование: жизненно важен для автономных транспортных средств и создания подробных 3D-карт.

4. Тепловизионные (инфракрасные) камеры

Принцип работы: регистрируют тепловое излучение (длинноволновое инфракрасное излучение), испускаемое объектами. Позволяют «видеть» в полной темноте или при плохих погодных условиях (туман, дым).

Использование: системы безопасности, обнаружение пожаров, контроль промышленных процессов.

5. Мульти- и гиперспектральные камеры

Принцип работы: захватывают изображение в большом количестве узких спектральных диапазонов за пределами видимого спектра (например, в ближнем инфракрасном).

Использование: анализ химического состава или состояния объектов, невидимого для человеческого глаза (например, в сельском хозяйстве для оценки здоровья посевов или в пищевой промышленности для контроля качества).

Таким образом, современные системы компьютерного зрения опираются на широкий арсенал задач и разнообразие датчиков, каждый из которых предоставляет уникальную информацию для построения полной и точной модели окружающего мира.