Найти в Дзене
НИИ Антропогенеза

Эволюционные стратегии на масштабе

Эволюционные стратегии на масштабе Недавно уже был один подход к снаряду https://t.me/gonzo_ML/4092, в новом добавили низкоранговую факторизацию Evolution Strategies at the Hyperscale https://arxiv.org/abs/2511.16652 https://eshyperscale.github.io/ https://arxiviq.substack.com/p/evolution-strategies-at-the-hyperscale Представили EGGROLL (Evolution Guided General Optimization via Low-rank Learning) — метод масштабирования эволюционных стратегий (ES) на нейросети с миллиардами параметров Заменив полноранговые матрицы гауссова шума на их низкоранговые факторизации, авторы сократили потребление памяти с O(mn) до O(r(m+n)) и добились почти линейного масштабирования на кластерах Это позволило обучать недифференцируемые системы, например, полностью целочисленные (integer-only) языковые модели Стандартный backpropagation «пожирает» память и требует дифференцируемой архитектуры Эволюционные стратегии исторически предлагали альтернативу для специфичного железа или задач с разреженной награ

Эволюционные стратегии на масштабе

Недавно уже был один подход к снаряду

https://t.me/gonzo_ML/4092, в новом добавили низкоранговую факторизацию

Evolution Strategies at the Hyperscale

https://arxiv.org/abs/2511.16652

https://eshyperscale.github.io/

https://arxiviq.substack.com/p/evolution-strategies-at-the-hyperscale

Представили EGGROLL (Evolution Guided General Optimization via Low-rank Learning) — метод масштабирования эволюционных стратегий (ES) на нейросети с миллиардами параметров

Заменив полноранговые матрицы гауссова шума на их низкоранговые факторизации, авторы сократили потребление памяти с O(mn) до O(r(m+n)) и добились почти линейного масштабирования на кластерах

Это позволило обучать недифференцируемые системы, например, полностью целочисленные (integer-only) языковые модели

Стандартный backpropagation «пожирает» память и требует дифференцируемой архитектуры

Эволюционные стратегии исторически предлагали альтернативу для специфичного железа или задач с разреженной наградой, но упирались в потолок масштабирования: хранить и считать плотные матрицы шума для огромных сетей было слишком накладно

EGGROLL ломает этот барьер, доказывая, что низкоранговые возмущения могут отлично аппроксимировать истинные натуральные градиенты, сходясь при этом с высокой скоростью O(1/r)

Подробнее: https://t.me/gonzo_ML_podcasts/1418