Bounding boxes: как компьютер понимает, где находится объект в машинном зрении.

22 апреля 202522 апр 2025

4 мин

Когда человек смотрит на фотографию, мозг автоматически и мгновенно выделяет объекты. Мы без труда определяем: вот человек, вот собака, вот велосипед. При этом мы интуитивно понимаем, где заканчивается один объект и начинается другой. У компьютера всё иначе. Он не «видит» изображение так, как мы. Для него это просто массив чисел, представляющих яркость или цвет пикселей. Чтобы научить машину распознавать объекты, сначала нужно объяснить, где именно эти объекты находятся на изображении. И здесь в игру вступают bounding boxes — прямоугольники, которые обводят объекты на изображении. Bounding box — это прямоугольная рамка, ограничивающая область, где находится объект. Обычно она определяется четырьмя числами: координатами верхнего левого и правого нижнего углов. В компьютерном зрении это стандартный способ обозначить «вот здесь объект». К примеру, если на фото изображён человек, алгоритм должен выдать координаты прямоугольника, в который этот человек полностью помещается. Аналогично

Оглавление

Что такое bounding box?
Почему bounding boxes — это удобно?
Где начинаются сложности?

Когда человек смотрит на фотографию, мозг автоматически и мгновенно выделяет объекты.

Мы без труда определяем: вот человек, вот собака, вот велосипед. При этом мы интуитивно понимаем, где заканчивается один объект и начинается другой.

У компьютера всё иначе.

Он не «видит» изображение так, как мы.

Для него это просто массив чисел, представляющих яркость или цвет пикселей. Чтобы научить машину распознавать объекты, сначала нужно объяснить, где именно эти объекты находятся на изображении.

И здесь в игру вступают bounding boxes — прямоугольники, которые обводят объекты на изображении.

Что такое bounding box?

Bounding box — это прямоугольная рамка, ограничивающая область, где находится объект.

Обычно она определяется четырьмя числами: координатами верхнего левого и правого нижнего углов.

В компьютерном зрении это стандартный способ обозначить «вот здесь объект».

К примеру, если на фото изображён человек, алгоритм должен выдать координаты прямоугольника, в который этот человек полностью помещается. Аналогично для машины, кошки, чашки и так далее.

Это один из самых простых и распространённых способов разметки данных и подачи информации модели.

Если вы хотите узнать как автоматизировать процессы, снизить брак с помощью компьютерного машинного зрения, напишите мне в телеграм: https://t.me/dvdiamanto

Почему bounding boxes — это удобно?

Несколько причин:

Простота. Прямоугольник — простая геометрическая форма. С ней легко работать и легко считать координаты.
Быстрая аннотация. Разметка bounding boxes вручную занимает меньше времени, чем, скажем, точечная сегментация.
Подходит для многих задач. В большинстве случаев модели не требуют пиксельной точности. Для многих приложений — вроде подсчёта объектов, оценки занятости парковки или анализа видеопотока — достаточно знать примерные границы.

Bounding boxes лежат в основе таких алгоритмов, как YOLO, SSD, Faster R-CNN и многих других.

Они используются в системах безопасности, в беспилотниках, в приложениях дополненной реальности, в анализе производственных линий и т.д.

Где начинаются сложности?

Хотя bounding boxes — это просто и удобно, в реальных задачах быстро становится видно, что их точность ограничена.

Вот несколько ситуаций, где появляются проблемы:

Несколько объектов рядом. Если люди стоят близко, прямоугольники могут частично пересекаться. Компьютеру может быть сложно понять, где один объект заканчивается, а другой начинается.
Неправильная ориентация объекта. Прямоугольник не поворачивается — он всегда строго вертикален. Если объект повернут, внутри окажется больше «пустого» пространства.
Сложная форма объекта. Если объект вытянутый, изогнутый или имеет пустоты (например, стул), прямоугольник охватывает и лишние пиксели, которые не принадлежат самому объекту.
Объекты частично перекрыты. Что делать, если один объект заслоняет другой? Bounding boxes не передают порядок в глубину.

Это не критично для некоторых задач, но для более точного анализа — например, в медицинских изображениях или в автопилотах — этих ограничений может быть слишком много.

Пример из жизни

Представим, что мы хотим распознать пешеходов на камерах уличного наблюдения.

Bounding boxes сработают неплохо: можно выделить людей, посчитать их, оценить, где они находятся.

Но если люди идут группой, часть закрыта другим человеком, или у кого-то в руках зонт — точность падает. Алгоритм может среагировать неправильно: объединить два объекта в один или вовсе не распознать.

Другой пример — промышленность.

Допустим, нужно считать бутылки на конвейере. Если они стоят близко, а свет бликует — прямоугольники могут частично накладываться, и модель начнёт ошибаться.

Что используют вместо прямоугольников?

Bounding boxes — это начальный уровень. Когда нужна точность, применяют более сложные подходы:

Сегментация (segmentation) — объект выделяется по пикселям, что даёт гораздо более точную форму.
Keypoints detection — определяются важные точки объекта (например, суставы у человека).
Pose estimation — вычисляется положение объекта в пространстве.

Во многих современных моделях bounding boxes используются как предварительный шаг — чтобы понять, где искать, а уже затем применяются более точные методы.

Выделение объекта позволяет компьютеру понять, что на изображении находится объект.

Почему всё ещё используют bounding boxes?

Несмотря на ограничения, прямоугольники остаются крайне популярными. Почему?

Они "дешевле" в разметке. Для обучения моделей нужны тысячи размеченных изображений. Нарисовать прямоугольник — быстрее, чем обводить объект вручную по контуру.
Они быстрее работают. Алгоритмы, основанные на bounding boxes, чаще всего быстрее в работе, чем сегментация.
Во многих задачах достаточно приблизительной оценки. Например, системе видеонаблюдения важно понять, что «человек пересёк границу», а не то, где у него заканчивается рукав.

Заключение

Bounding boxes — это фундаментальный инструмент в компьютерном зрении.

Они позволяют моделям понять, где находятся объекты, и служат отправной точкой для более сложных алгоритмов. Да, они неточны. Да, они не передают форму. Но без них развитие систем компьютерного зрения было бы невозможным.

Если вы только начинаете разбираться в этой области — понимание bounding boxes даст отличную основу для изучения object detection, сегментации и распознавания образов.

А если вы уже в теме — стоит помнить, что за простыми прямоугольниками стоят десятки тонких инженерных решений.