Исследователи из Facebook AI разрабатывают новый алгоритм обучения с подкреплением под названием DD-PPO. — Новая Наука.