Алгоритмы обучения с подкреплением типа AlphaZero демонстрируют выдающиеся результаты в сложных играх, таких как шахматы, сёги и го. Однако новое исследование показало, что они сталкиваются с фундаментальными трудностями при переходе к иному классу задач — так называемым «беспристрастным» играм. В играх вроде шахмат игроки управляют своими собственными фигурами. В беспристрастных играх, таких как игра «Ним», игроки используют общие фишки, а стратегия основывается на абстрактных математических принципах, в частности — на функции четности. Игроку нужно определять, является ли сумма элементов в кучках четной или нечетной, чтобы выбрать выигрышный ход. Иллюстрация ИИ Copilot Designer//DALL·E 3 Как выяснили исследователи, нейронные сети, лежащие в основе AlphaZero, не способны эффективно выучить эту логику. В отличие от шахмат, где стратегия строится на накопленном опыте и распознавании визуальных паттернов, в «Ниме» даже незначительное изменение состояния доски может полностью поменять вер