31 подписчик

Большие модели и визуальное понимание: почему AI «теряется» в реальных профессиональных сценариях

9 декабря 20259 дек 2025

3 мин

Мы привыкли видеть, как искусственный интеллект уверенно отвечает на вопросы и генерирует красивые изображения. Но что произойдёт, если «поместить» модель в реальную операционную, где она должна с первого лица определить, какой хирургический инструмент использовать дальше? Исследование EgoCross показывает, что современные мультимодальные большие языковые модели (MLLM) испытывают серьёзные трудности с переносом своих способностей из повседневных задач в сложные профессиональные области. Проблема: ограниченность текущих моделей в кросс-доменных задачах Большинство существующих датасетов и тестов для моделей сосредоточены на повседневных действиях — приготовлении пищи, уборке и т.п. Однако в реальной жизни AI должен работать в гораздо более сложных и разнообразных условиях: Хирургия: распознавание и различение множества специализированных инструментов, прогнозирование следующих шагов в сложных операциях. Промышленность: ремонт сложных электронных плат, точное определение

Исследование EgoCross показывает, что современные мультимодальные большие языковые модели (MLLM) испытывают серьёзные трудности с переносом своих способностей из повседневных задач в сложные профессиональные области.

Проблема: ограниченность текущих моделей в кросс-доменных задачах

Большинство существующих датасетов и тестов для моделей сосредоточены на повседневных действиях — приготовлении пищи, уборке и т.п. Однако в реальной жизни AI должен работать в гораздо более сложных и разнообразных условиях:

Хирургия: распознавание и различение множества специализированных инструментов, прогнозирование следующих шагов в сложных операциях.
Промышленность: ремонт сложных электронных плат, точное определение мелких деталей.
Экстремальные виды спорта: резкие движения, частая смена ракурса, размытость изображения.
Животные: нестабильное движение камеры, необычные углы обзора.

Эти сценарии сильно отличаются по визуальному стилю и семантике от привычных бытовых задач, что создаёт эффект «domain shift» — сдвиг домена, при котором модели теряют точность.

EgoCross: новый кросс-доменный бенчмарк

Команда из Восточно-китайского педагогического университета и INSAIT разработала EgoCross — первый датасет и тестовую платформу для оценки моделей на основе видео с первого лица в четырёх профессиональных областях. Включает почти 1000 пар вопросов и ответов, охватывающих 15 типов задач:

Идентификация: распознавание объектов и действий.
Локализация: определение времени и места событий.
Прогнозирование: предсказание следующего действия или этапа.
Подсчёт: количество объектов или событий.

Результаты тестирования моделей

В тестах восьми ведущих мультимодальных моделей (включая GPT-4.1, Gemini 2.5 Pro, Qwen2.5-VL и др.) точность в кросс-доменных задачах резко падает:

В закрытых вопросах (CloseQA) — менее 55% (против 25% случайного угадывания).
В открытых вопросах (OpenQA) — менее 35%.

Особенно сложны задачи прогнозирования и работа в индустриальных и экстремальных спортивных условиях.

Пути улучшения

Исследователи протестировали три подхода:

Prompt Learning (обучение подсказкам): добавление контекстных подсказок без изменения модели.
Supervised Fine-Tuning (SFT): дообучение модели на небольшом наборе специализированных данных.
Reinforcement Learning (RL): обучение с подкреплением с использованием наград за правильные ответы.

RL показал наибольший прирост — в среднем +22% точности.

Выводы

Текущие большие модели хорошо работают в «зоне комфорта» повседневных задач, но при выходе в профессиональные, специализированные области их эффективность резко падает. Для создания действительно универсальных AI-ассистентов, способных помогать в хирургии, промышленности и других сложных сферах, необходимы новые методы обучения и адаптации.

Полезные ссылки

Статья на arXiv: https://arxiv.org/abs/2508.10729
Репозиторий EgoCross: https://github.com/MyUniverse0726/EgoCross
Официальный сайт челленджа: https://egocross-benchmark.github.io/

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/