Новый метод получил название SAC-RND. Он позволяет обучать роботов в 20 раз быстрее и на 10% качественнее существующих аналогов. Такие результаты показало тестирование на робототехнических стимуляторах.
Отмечается, что SAC-RND может повысить безопасность беспилотных авто, упростить логистические цепочки, ускорить доставку и работу складов, а также оптимизировать процессы горения на энергетических объектах и сократить выбросы вредных веществ в окружающую среду. Это открытие приближает учёных к созданию универсального робота, способного в одиночку выполнять любые задачи.
В работе метода алгоритмов для последовательного и автоматического принятия решений, или RND, участвуют две нейросети — случайная и основная, которая пытается предсказать поведение первой. Исследователи из Tinkoff Research исправили глубины сетей, сделав их эквивалентными, и обнаружили, что при таких настройках методу удаётся различать данные. Следующим шагом стала оптимизация метода.
В тестах на робототехнических стимуляторах SAC-RND показал лучшие результаты при меньшем количестве потребляемых ресурсов и времени. Полученные результаты были признаны мировым научным сообществом и представлены на Международной конференции по машинному обучению (ICML), которая в этом году прошла в 40-й раз в Гонолулу, Гавайи.