17 подписчиков

Институт AIRI научил ИИ-агента работать в новой среде без переобучения

ВчераВчера

2 мин

Первую версию Vintix AIRI представил год назад. Система работает в рамках обучения с подкреплением - подхода, при котором модель учится не по размеченным данным, а за счёт проб и ошибок в разных условиях. Изначально Vintix обучили на большом наборе разнородных задач, что дало ей универсальность. В обновлённой версии исследователи расширили обучающую выборку и встроили специальный модуль для работы с разными типами входных данных. Второй шаг оказался решающим: именно он позволил модели использовать закономерности из одной задачи для решения другой. Как именно устроен этот модуль, в пресс-релизе не раскрывается. Ключевое свойство новой Vintix - трансферабельность. Модель, обученная управлять роботом-манипулятором, может перейти к задаче климат-контроля в здании, не проходя отдельного обучения под новую среду. «Модель умеет переносить полезные закономерности между разными средами и уточнять свою стратегию по мере накопления нового опыта. Это особенно ценно для задач со сложными, меняющими

Оглавление

Что такое Vintix и как он устроен
От климат-контроля до роботов
+28% и превосходство над зарубежными аналогами

Что такое Vintix и как он устроен

В обновлённой версии исследователи расширили обучающую выборку и встроили специальный модуль для работы с разными типами входных данных. Второй шаг оказался решающим: именно он позволил модели использовать закономерности из одной задачи для решения другой. Как именно устроен этот модуль, в пресс-релизе не раскрывается.

От климат-контроля до роботов

Ключевое свойство новой Vintix - трансферабельность. Модель, обученная управлять роботом-манипулятором, может перейти к задаче климат-контроля в здании, не проходя отдельного обучения под новую среду.

«Модель умеет переносить полезные закономерности между разными средами и уточнять свою стратегию по мере накопления нового опыта. Это особенно ценно для задач со сложными, меняющимися условиями»,- говорит научный сотрудник AIRI Андрей Полубаров.

Заявленный список сценариев - климат-контроль в зданиях, управление роботами-манипуляторами, компьютерное моделирование. Всё это области, где условия постоянно меняются и классические модели требуют переобучения под каждый новый сценарий.

+28% и превосходство над зарубежными аналогами

Первые испытания показали рост качества работы на 28% по сравнению с предыдущей версией. В ряде задач новая Vintix обошла зарубежные универсальные нейросети, заточенные под управление роботами и работу в меняющихся средах. Какие именно системы брались для сравнения и на каких бенчмарках - в материале не указано.

Здесь нужно сделать оговорку. Исследовательские цифры в академической среде и промышленные показатели - разные вещи. Первые тесты, даже впечатляющие, не равны готовности продукта. Рецензируемая статья по Vintix пока не упоминается.

Когда это станет продуктом - открытый вопрос

Vintix позиционируется как «основа для создания универсальных ИИ-агентов». Судя по контексту, речь идёт об исследовательской системе, а не о продукте с публичным доступом. AIRI не сообщает о планах коммерциализации, датах открытого выпуска или партнёрствах.

Направление при этом востребованное. Системы, которые адаптируются к новым средам без переобучения, нужны промышленности - в управлении производством, энергосетями, логистикой. Если AIRI удастся подтвердить результаты на более широком наборе задач, Vintix может занять место в этом ряду. Пока это убедительная заявка из российской академической среды, которая ждёт внешней проверки.