Найти в Дзене
РР-Новости

Ученые создали самый эффективный алгоритм обучения ИИ

Ученые из лаборатории исследований искусственного интеллекта Tinkoff Research создали «самый эффективный среди мировых аналогов» алгоритм для обучения и адаптации искусственного интеллекта, сообщает it-world.ru. Тестирование на робототехнических симуляторах показало, что алгоритм обучает ИИ в четыре раза быстрее и на 40 % качественнее всех существующих в офлайн-бенчмарках. Ранее лидерство принадлежало алгоритму SAC-RND, также созданному учеными из Tinkoff Research.

Новый метод получил название ReBRAC (Revisited Behavior Regularized Actor Critic — пересмотренный актор-критик с контролируемым поведением). Результаты исследования были признаны мировым научным сообществом и представлены на главной научной конференции в области ИИ в мире — международной конференции по машинному обучению и нейровычислениям NeurIPS (The Conference and Workshop on Neural Information Processing Systems). В этом году конференция прошла в 37-й раз — в Новом Орлеане, США, с 10 по 16 декабря.

Ученые из Tinkoff Research идентифицировали четыре компонента, которые были представлены в алгоритмах последних лет, но считались второстепенными и не подвергались детальному анализу: глубину нейронных сетей (увеличение глубины сети помогает ей лучше понимать сложные закономерности в данных), регуляризацию актора и критика ( использовали совместную регуляризацию обоих компонентов, чтобы актор избегал нежелательных действий, а критик более эффективно оценивал их; ранее не было понятно, как сочетать оба подхода с наибольшей эффективностью) и увеличение эффективного горизонта планирования ( что позволяет модели балансировать между краткосрочными и долгосрочными аспектами задачи и улучшает ее способность принимать решения).

Специалисты из Tinkoff Research интегрировали эти компоненты в алгоритм-предшественник BRAC (Behavior Regularized Actor Critic — актор-критик с контролируемым поведением) 2019 года и провели исследование, поочередно варьируя каждый из них. Оказалось, что правильная совокупность этих компонентов дает даже этому старому подходу самую высокую производительность среди лучших аналогов на сегодняшний день. Модифицированный алгоритм получил название ReBRAC.

ReBRAC также эффективнее всего решает проблему дообучения искусственного интеллекта, который обычно медленно адаптируется к новым условиям. Например, робот, который был изначально обучен передвигаться по траве, упадет, если переместится на лед. ReBRAC же позволяет ИИ лучше учиться и адаптироваться на ходу.

Помимо алгоритма ReBRAC ученые представили две открытые библиотеки в области офлайн-обучения с подкреплением (Offline RL, ORL), благодаря которым специалистам по ИИ больше не требуется самостоятельно воспроизводить результаты наиболее весомых научных работ. Статьи уже цитируются ведущими исследовательскими лабораториями со всего мира — в их числе Стэнфордский университет, Калифорнийский университет в Беркли и научно-исследовательская лаборатория Google DeepMind.