Google Research представил Nested Learning, которая решает одну из главных проблем современных моделей Ml - постоянное обучение Aрхитектура модели и алгоритм обучения — это одно и то же, просто на разных уровнях Всё можно представить как вложенные задачи оптимизации, которые решают одновременно. Ключевые концепции: - Оптимизаторы — это тоже модули ассоциативной памяти. - Память в трансформерах расширяется до Continuum Memory System — спектр модулей памяти с разной скоростью обновления Идея взята из фильма «Начало» Нолана Каждый уровень живёт по своим законам и с разной скоростью времени: - верхний меняется за один токен, - самый глубокий — раз в миллионы токенов Они создали модель Hope из 1.500.000.000 параметров На данный момент она: - 3-е место среди всех моделей меньше 3 млрд параметров, - обходит Titans-1.8B, Samba-1.9B, RWKV-7B и даже Llama-3.1-8B по качеству языка, - держит 128.000 токенов контекста лучше Mistral-24B, - учится пяти новым задачам подряд и ни одну прежнюю
Google Research представил Nested Learning, которая решает одну из главных проблем современных моделей Ml - постоянное обучение
7 ноября 20257 ноя 2025
2
1 мин