Исследователи из Массачусетского технологического института (MIT) и Watson AI Lab MIT-IBM представили технику, которая позволяет генеративным моделям искусственного интеллекта лучше распознавать уникальные объекты, например конкретного питомца, человека или предмет.
Проблема Современные модели языка зрения (VLM), такие как GPT-5, отлично справляются с определением общих категорий вроде «собака» или «рюкзак», но плохо различают индивидуальные экземпляры — например, конкретного французского бульдога по имени Боузер. Решение MIT Учёные предложили новый метод тонкой настройки, основанный на данных видеослежения, где один и тот же объект показан в разных кадрах и контекстах.
Модель обучается локализовать объект по контекстным признакам, а не по запомненным категориям.
Чтобы исключить подсказки, исследователи заменили реальные названия объектов на псевдоимена — например, тигра переименовали в «Чарли». Это вынудило модель опираться только на визуальные подсказки. Результаты После обучения по