Найти тему
265 подписчиков

Для машинного обучения наши алгоритмы — игра


Помните, как AlphaGo ИИ система основанная на обучении с подкреплением (reinforcement learning) изобрела новую стратегию в игре Го и выиграла всех мастеров?

Группа DeepMind построили на ее основе систему AlphaDev и пробуют с ее помощью улучшать алгоритмы. Первой пала сортировка. AlphaDev получает «игровые очки» если системе удается ускорить сортировку. Путем перебора она изобрела новый алгоритм, который на коротких наборах данных быстрее на 70%, а на больших наборах на 2%.

Алгоритм уже запиливают в LLVM и пробуют оптимизировать другие алгоритмы, хеширование, например.

Коечно, это просто перебор с обратной связью, но я думаю, что тут важнее результат, а не наличие осмысленности действий. Полученный аглоритм вообще выглядит как ошибка на первый взгляд человека.


Около минуты