27 подписчиков

Визуально-языковые агенты (VLM-A)

25 ноября 202525 ноя 2025

6 мин

Автор: Болховский Дмитрий, Aftermarket-DATA©. AI/ИИ – трансформация компаний, LLM-агенты, аналитика Тг канал «ИИ-Стратег» https://t.me/s/BolkhovskyInsight Машинное зрение как независимый сенсор процессов Управленческие решения в сетевых компаниях строятся на данных: отчётах, дашбордах, KPI. Руководители сравнивают показатели, ищут отклонения, корректируют планы. Но существует системная проблема — цифры в системе — это лишь субъективная реальность, ограниченная ошибками ввода и временными задержками, что критически смещает картину операционной деятельности. Типичная ситуация: сеть из пяти автосервисов, четыре точки в норме, одна отстаёт — падают продажи, снижается выработка. Формально виноваты конкуренты, слабый маркетинг или снижение покупательной способности. Но реальность проще: точка открывается с опозданием, время в заказ-нарядах не совпадает с фактическим, а часть работ идёт «мимо кассы». Учётная система таких деталей не видит. Картина мира руководителя расходится с объективной

Автор: Болховский Дмитрий, Aftermarket-DATA©.

AI/ИИ – трансформация компаний, LLM-агенты, аналитика

Тг канал «ИИ-Стратег» https://t.me/s/BolkhovskyInsight

Машинное зрение как независимый сенсор процессов

Управленческие решения в сетевых компаниях строятся на данных: отчётах, дашбордах, KPI. Руководители сравнивают показатели, ищут отклонения, корректируют планы.

Но существует системная проблема — цифры в системе — это лишь субъективная реальность, ограниченная ошибками ввода и временными задержками, что критически смещает картину операционной деятельности.

Типичная ситуация: сеть из пяти автосервисов, четыре точки в норме, одна отстаёт — падают продажи, снижается выработка. Формально виноваты конкуренты, слабый маркетинг или снижение покупательной способности. Но реальность проще: точка открывается с опозданием, время в заказ-нарядах не совпадает с фактическим, а часть работ идёт «мимо кассы».

Учётная система таких деталей не видит. Картина мира руководителя расходится с объективной реальностью.

Чтобы устранить этот разрыв, компании внедряют машинное зрение как независимый сенсор процессов.

Традиционные задачи анализа систем машинного зрения (Computer Vision, CV):

· детекция – есть ли в кадре объект?

· классификация – что это за объект?

· сегментация – каковы границы объекта?

CV + LLM

С развитием больших языковых моделей (LLM), таких как ChatGPT, появилась новая возможность не просто анализировать сцены, но и «понимать», что происходит в кадре, но и описывать ситуацию на естественном языке.

Именно здесь в игру вступают визуально-языковые модели (VLM). Они объединяют визуальные данные с возможностями LLM, что позволяет описывать ситуацию на естественном языке, отвечать на сложные запросы о событиях и последовательностях действий, принимать решения на основе контекста.

Примеры использования:

§ Сложные поисковые запросы пользователей: сколько транспортных средств проехало через ворота «С» последние 30 минут и что в это время делали рабочие? VLM система сама адаптирует алгоритм поиска на основе поискового запроса и выделит нужные кадры из потока видео

· Контроль качества на основе документации: не просто «дефект обнаружен», а «царапина 3мм на боковой панели, несоответствие спецификации»

· Улучшение клиентского опыта: Определение клиента, который долго изучает товары — возможность предложить помощь

Принципиальное отличие визуально-языковых моделей от традиционных CV систем заключается в том, что традиционные системы записывают события постфактум. Пример – выявление подозрительного поведения «человек взял товар и не заплатил». Классическая CV система зафиксирует этот факт и отправит аллерт. Но операторы могут среагировать только на факт инцидента. VLM-системы, напротив, действуют проактивно. VLM алгоритм может проанализировать поток в контексте и предупредить «Человек в худи многократно оглядывается, скрывая предмет в карман в электронном отделе».

На картинке ниже приведена принципиальная схема работы VLM -агента

Резюме: VLM — это эволюция CV+LLM, позволяющая строить системы, которые не просто распознают объекты, а описывают происходящее в терминах бизнес-логики: «трое рабочих у выхода, два заняты разгрузкой, а один курит». Сценарии охватывают склады, ритейл и производство.

Очумелые ручки

Для тех, кто любит заглянуть под капот, расскажу о собственном опыте запуска проекта #ЗоркийГлаз (aVision), а именно, с какими сложностями мы столкнулись при внедрении продукта, и как мы их решили. Система #ЗоркийГлаз предназначена для контроля эффективности процессов автопредприятий с помощью видеоаналитики.

На этапе внедрения мы договорились с несколькими сетевыми автосервисами и ДЦ. В том числе, сетью ПЗМ «Маслёныч» и ТЦ «Волин» (РАСТО).

# ЗоркийГлаз был обучен распознавать гос-номера и марки автомобилей, типы кузова, лица людей и оборудование.

Бинаризация

Несмотря на то, что на GitHub существует общедоступный код расшифровки ГРЗ, использующий библиотеки OpenCV и Tesseract, этот метод нестабилен из-за трёх ключевых ограничений. Во-первых, код сначала переводит картинку в чёрно-белое (бинарное) изображение. И результат этого перевода критически зависит от выбранного порога бинаризации. Если средняя освещённость изображения сильно отличается от освещённости региона внимания, ГРЗ или засвечивается или сгорает, и текст становится нечитаемым. Во-вторых, метод принимает за рамки ГРЗ рекламные надписи, элементы радиаторной решетки и даже просвет под воротами, что сильно замусоривает результаты поиска. В-третьих, метод чувствителен к наклону: при «косом» заезде, он перестаёт корректно распознавать символы.

Различение нескольких объектов

Для классификации объектов мы обучили модель на базе нейросети YOLO. Определение марки автомобиля и кузова сначала нам казались, скорее, приятным бонусом, который, правда, потребляет значительные вычислительные ресурсы. Однако, эта опция оказалась абсолютно незаменимой при различении двух разных автомобилей в кадре. Представьте, что видеокамера фиксирует въезд одного автомобиля в бокс автосервиса, при этом, другой автомобиль просто стоит рядом с воротами. Если система не умеет различать автомобили, находящиеся в кадре рядом, может произойти склейка объектов, и в бокс «заедет» другой, припаркованный автомобиль.

Люди в кадре

Ещё более важной, оказалась функция детекции силуэта человека. Сотрудники и клиенты могут перекрывать часть номерного знака, что приводит к ошибкам в расшифровке номеров. Если в кадре присутствует человек рядом с рамкой ГРЗ, такие изображения мы отбрасывали.

Фантомы

Кроме того, в процессе испытаний мы выявили «фантомы» — объекты, которые нейросеть ошибочно воспринимает как номерные знаки. Чаще всего это рекламный текст на номерной рамке, часть решётки радиатора, логотип на спецодежде или искусственные обманки для камер ГИБДД.

Для решения мы применили метод RegressionRandomForest — алгоритм машинного обучения, который комбинирует несколько деревьев решений для более точных предсказаний. Он устойчив к выбросам и автоматически обрабатывает пропущенные значения.

На основе анализа ошибочно распознанных плашек мы определили ключевые фичи – особенности фантомных изображений (плотность чёрного, наличие вертикальной линии, отношение высоты к длине, операторы Собеля и Лапласа) и обучили модель.

Результат: алгоритм расшифровки номеров стал нечувствителен к дефектам бинаризации и искусственным помехам.