Найти тему
10,2 тыс подписчиков

🎲 Anti-Exploration by Random Network Distillation, Tinkoff Research, ICML 2023


We propose a new ensemble-free offline RL algorithm called SAC-RND. We evaluate our method on the D4RL (Fu et al., 2020) benchmark, and show that SAC-RND achieves performance comparable to ensemble-based methods while outperforming ensemble-free approaches.

Ученые из Tinkoff Research открыли новый Offline-RL алгоритм, который показывает SOTA-результаты, сравнимые с ансамблевыми моделями (в некоторых случаях даже лучше), и при этом требует до 20 раз меньше времени на обучение.



🎲 Anti-Exploration by Random Network Distillation, Tinkoff Research, ICML 2023  We propose a new ensemble-free offline RL algorithm called SAC-RND. We evaluate our method on the D4RL (Fu et al.
Около минуты