265 подписчиков
Для машинного обучения наши алгоритмы — игра
Помните, как AlphaGo ИИ система основанная на обучении с подкреплением (reinforcement learning) изобрела новую стратегию в игре Го и выиграла всех мастеров?
Группа DeepMind построили на ее основе систему AlphaDev и пробуют с ее помощью улучшать алгоритмы. Первой пала сортировка. AlphaDev получает «игровые очки» если системе удается ускорить сортировку. Путем перебора она изобрела новый алгоритм, который на коротких наборах данных быстрее на 70%, а на больших наборах на 2%.
Алгоритм уже запиливают в LLVM и пробуют оптимизировать другие алгоритмы, хеширование, например.
Коечно, это просто перебор с обратной связью, но я думаю, что тут важнее результат, а не наличие осмысленности действий. Полученный аглоритм вообще выглядит как ошибка на первый взгляд человека.
Около минуты
17 июня 2023