Добавить в корзинуПозвонить
Найти в Дзене
НИИ Антропогенеза

Google Research представил Nested Learning, которая решает одну из главных проблем современных моделей Ml - постоянное обучение

Google Research представил Nested Learning, которая решает одну из главных проблем современных моделей Ml - постоянное обучение Aрхитектура модели и алгоритм обучения — это одно и то же, просто на разных уровнях Всё можно представить как вложенные задачи оптимизации, которые решают одновременно. Ключевые концепции: - Оптимизаторы — это тоже модули ассоциативной памяти. - Память в трансформерах расширяется до Continuum Memory System — спектр модулей памяти с разной скоростью обновления Идея взята из фильма «Начало» Нолана Каждый уровень живёт по своим законам и с разной скоростью времени: - верхний меняется за один токен, - самый глубокий — раз в миллионы токенов Они создали модель Hope из 1.500.000.000 параметров На данный момент она: - 3-е место среди всех моделей меньше 3 млрд параметров, - обходит Titans-1.8B, Samba-1.9B, RWKV-7B и даже Llama-3.1-8B по качеству языка, - держит 128.000 токенов контекста лучше Mistral-24B, - учится пяти новым задачам подряд и ни одну прежнюю

Google Research представил Nested Learning, которая решает одну из главных проблем современных моделей Ml - постоянное обучение

Aрхитектура модели и алгоритм обучения — это одно и то же, просто на разных уровнях

Всё можно представить как вложенные задачи оптимизации, которые решают одновременно.

Ключевые концепции:

- Оптимизаторы — это тоже модули ассоциативной памяти.

- Память в трансформерах расширяется до Continuum Memory System — спектр модулей памяти с разной скоростью обновления

Идея взята из фильма «Начало» Нолана

Каждый уровень живёт по своим законам и с разной скоростью времени:

- верхний меняется за один токен,

- самый глубокий — раз в миллионы токенов

Они создали модель Hope из 1.500.000.000 параметров

На данный момент она:

- 3-е место среди всех моделей меньше 3 млрд параметров,

- обходит Titans-1.8B, Samba-1.9B, RWKV-7B и даже Llama-3.1-8B по качеству языка,

- держит 128.000 токенов контекста лучше Mistral-24B,

- учится пяти новым задачам подряд и ни одну прежнюю не забывает

Впервые в истории — continual learning без replay, без LoRA, без regularization

Просто потому, что забывание побеждено на уровне архитектуры

Какие нюансы:

- Обучение на 35 % дороже обычного

- Пока работает только в рекуррентных архитектурах

- В продакшене больших моделей пока нет

Но уже есть три независимые репликации, включая Mistral AI

Nested Learning — это новый фундамент

Если идея взлетит, через пару лет мы получим модели, которые учатся всю жизнь, как люди, но никогда ничего не забывают