Добавить в корзинуПозвонить
Найти в Дзене
Social Mebia Systems

Большие модели и визуальное понимание: почему AI «теряется» в реальных профессиональных сценариях

Мы привыкли видеть, как искусственный интеллект уверенно отвечает на вопросы и генерирует красивые изображения. Но что произойдёт, если «поместить» модель в реальную операционную, где она должна с первого лица определить, какой хирургический инструмент использовать дальше? Исследование EgoCross показывает, что современные мультимодальные большие языковые модели (MLLM) испытывают серьёзные трудности с переносом своих способностей из повседневных задач в сложные профессиональные области. Проблема: ограниченность текущих моделей в кросс-доменных задачах Большинство существующих датасетов и тестов для моделей сосредоточены на повседневных действиях — приготовлении пищи, уборке и т.п. Однако в реальной жизни AI должен работать в гораздо более сложных и разнообразных условиях: Хирургия: распознавание и различение множества специализированных инструментов, прогнозирование следующих шагов в сложных операциях. Промышленность: ремонт сложных электронных плат, точное определение

Мы привыкли видеть, как искусственный интеллект уверенно отвечает на вопросы и генерирует красивые изображения. Но что произойдёт, если «поместить» модель в реальную операционную, где она должна с первого лица определить, какой хирургический инструмент использовать дальше?

Исследование EgoCross показывает, что современные мультимодальные большие языковые модели (MLLM) испытывают серьёзные трудности с переносом своих способностей из повседневных задач в сложные профессиональные области.

Проблема: ограниченность текущих моделей в кросс-доменных задачах

Большинство существующих датасетов и тестов для моделей сосредоточены на повседневных действиях — приготовлении пищи, уборке и т.п. Однако в реальной жизни AI должен работать в гораздо более сложных и разнообразных условиях:

  • Хирургия: распознавание и различение множества специализированных инструментов, прогнозирование следующих шагов в сложных операциях.
  • Промышленность: ремонт сложных электронных плат, точное определение мелких деталей.
  • Экстремальные виды спорта: резкие движения, частая смена ракурса, размытость изображения.
  • Животные: нестабильное движение камеры, необычные углы обзора.

Эти сценарии сильно отличаются по визуальному стилю и семантике от привычных бытовых задач, что создаёт эффект «domain shift» — сдвиг домена, при котором модели теряют точность.

EgoCross: новый кросс-доменный бенчмарк

Команда из Восточно-китайского педагогического университета и INSAIT разработала EgoCross — первый датасет и тестовую платформу для оценки моделей на основе видео с первого лица в четырёх профессиональных областях. Включает почти 1000 пар вопросов и ответов, охватывающих 15 типов задач:

  • Идентификация: распознавание объектов и действий.
  • Локализация: определение времени и места событий.
  • Прогнозирование: предсказание следующего действия или этапа.
  • Подсчёт: количество объектов или событий.

Результаты тестирования моделей

В тестах восьми ведущих мультимодальных моделей (включая GPT-4.1, Gemini 2.5 Pro, Qwen2.5-VL и др.) точность в кросс-доменных задачах резко падает:

  • В закрытых вопросах (CloseQA) — менее 55% (против 25% случайного угадывания).
  • В открытых вопросах (OpenQA) — менее 35%.

Особенно сложны задачи прогнозирования и работа в индустриальных и экстремальных спортивных условиях.

-2

Пути улучшения

Исследователи протестировали три подхода:

  • Prompt Learning (обучение подсказкам): добавление контекстных подсказок без изменения модели.
  • Supervised Fine-Tuning (SFT): дообучение модели на небольшом наборе специализированных данных.
  • Reinforcement Learning (RL): обучение с подкреплением с использованием наград за правильные ответы.

RL показал наибольший прирост — в среднем +22% точности.

Выводы

Текущие большие модели хорошо работают в «зоне комфорта» повседневных задач, но при выходе в профессиональные, специализированные области их эффективность резко падает. Для создания действительно универсальных AI-ассистентов, способных помогать в хирургии, промышленности и других сложных сферах, необходимы новые методы обучения и адаптации.

Полезные ссылки

Хотите создать уникальный и успешный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/