Мы привыкли видеть, как искусственный интеллект уверенно отвечает на вопросы и генерирует красивые изображения. Но что произойдёт, если «поместить» модель в реальную операционную, где она должна с первого лица определить, какой хирургический инструмент использовать дальше? Исследование EgoCross показывает, что современные мультимодальные большие языковые модели (MLLM) испытывают серьёзные трудности с переносом своих способностей из повседневных задач в сложные профессиональные области. Проблема: ограниченность текущих моделей в кросс-доменных задачах Большинство существующих датасетов и тестов для моделей сосредоточены на повседневных действиях — приготовлении пищи, уборке и т.п. Однако в реальной жизни AI должен работать в гораздо более сложных и разнообразных условиях: Хирургия: распознавание и различение множества специализированных инструментов, прогнозирование следующих шагов в сложных операциях. Промышленность: ремонт сложных электронных плат, точное определение
Большие модели и визуальное понимание: почему AI «теряется» в реальных профессиональных сценариях
9 декабря 20259 дек 2025
3 мин