Новый метод обучает ИИ распознавать персонализированные объекты

16 октября 202516 окт 2025

1 мин

Исследователи из Массачусетского технологического института (MIT) и Watson AI Lab MIT-IBM представили технику, которая позволяет генеративным моделям искусственного интеллекта лучше распознавать уникальные объекты, например конкретного питомца, человека или предмет.

Проблема Современные модели языка зрения (VLM), такие как GPT-5, отлично справляются с определением общих категорий вроде «собака» или «рюкзак», но плохо различают индивидуальные экземпляры — например, конкретного французского бульдога по имени Боузер. Решение MIT Учёные предложили новый метод тонкой настройки, основанный на данных видеослежения, где один и тот же объект показан в разных кадрах и контекстах.

Модель обучается локализовать объект по контекстным признакам, а не по запомненным категориям.

Чтобы исключить подсказки, исследователи заменили реальные названия объектов на псевдоимена — например, тигра переименовали в «Чарли». Это вынудило модель опираться только на визуальные подсказки. Результаты После обучения по

Модель обучается локализовать объект по контекстным признакам, а не по запомненным категориям.

Современные модели языка зрения (VLM), такие как GPT-5, отлично справляются с определением общих категорий вроде «собака» или «рюкзак», но плохо различают индивидуальные экземпляры — например, конкретного французского бульдога по имени Боузер.

Решение MIT

Учёные предложили новый метод тонкой настройки, основанный на данных видеослежения, где один и тот же объект показан в разных кадрах и контекстах.
Модель обучается локализовать объект по контекстным признакам, а не по запомненным категориям.
Чтобы исключить подсказки, исследователи заменили реальные названия объектов на псевдоимена — например, тигра переименовали в «Чарли». Это вынудило модель опираться только на визуальные подсказки.

Результаты

После обучения по новой методике точность определения персонализированных объектов выросла:

на 12 % при стандартных данных;
на 21 % при использовании псевдоимен.

При увеличении размеров модели рост производительности оказался ещё более значительным.
Важно, что общие способности ИИ при этом не ухудшились.

Потенциал

Подход может применяться в:

робототехнике — для отслеживания конкретных объектов;
экологическом мониторинге — для наблюдения за отдельными животными;
ассистивных технологиях — чтобы помогать людям с нарушением зрения находить нужные предметы.

Цитата

«Мы хотим, чтобы модели учились из контекста, как это делают люди. Несколько примеров должны быть достаточны, чтобы ИИ сделал правильные выводы», — пояснил Джеханзеб Мирза, постдок MIT и старший автор исследования.

Работа будет представлена на Международной конференции по компьютерному зрению (ICCV). Исследование объединяет специалистов из MIT, IBM Research, Университета Вейцмана, Тель-Авивского университета, Университета Иоганна Кеплера и Центра ИИ в Тюбингене.

Источник: https://news.mit.edu/2025/method-teaches-generative-ai-models-locate-personalized-objects-1016

Больше интересного – на медиапортале https://www.cta.ru/

Гаджеты и электроника

5,73 млн интересуются