137 подписчиков

🔍 Multiscreen: архитектура, которая обучается в 100 раз быстрее и не теряет информацию

8 апреля8 апр

2 мин

🔍 Multiscreen: архитектура, которая обучается в 100 раз быстрее и не теряет информацию 1 апреля 2026 исследователи из RIKEN опубликовали исследование "Screening Is Enough" — оно о архитектуре Multiscreen, которая решает главную проблему всех LLM: в длинных текстах модели "теряют" важную информацию. 📍 Что не так с обычными LLM Представьте: вы читаете книгу на 100,000 слов и должны запомнить одно имя из середины. Обычные Transformer "размазывают" внимание по всему тексту — каждому слову достаётся крошечная доля. Проблема называется attention fading (затухание внимания): чем длиннее контекст, тем сильнее "разбавляется" важная информация. 🖋Почему так происходит? Softmax (механизм внимания) работает как конкуренция: есть фиксированный "бюджет" = 1.0, который делится между всеми токенами. Если токенов 100,000 — каждому достаётся 0.00001. Важный момент: модель с Softmax не может сказать "этот токен бесполезен". Даже если токен совершенно нерелевантен, он всё равно получает ненулевой

1 апреля 2026 исследователи из RIKEN опубликовали исследование "Screening Is Enough" — оно о архитектуре Multiscreen, которая решает главную проблему всех LLM: в длинных текстах модели "теряют" важную информацию.

📍 Что не так с обычными LLM

Представьте: вы читаете книгу на 100,000 слов и должны запомнить одно имя из середины. Обычные Transformer "размазывают" внимание по всему тексту — каждому слову достаётся крошечная доля.

Проблема называется attention fading (затухание внимания): чем длиннее контекст, тем сильнее "разбавляется" важная информация.

🖋Почему так происходит?

Softmax (механизм внимания) работает как конкуренция: есть фиксированный "бюджет" = 1.0, который делится между всеми токенами. Если токенов 100,000 — каждому достаётся 0.00001.

Важный момент: модель с Softmax не может сказать "этот токен бесполезен". Даже если токен совершенно нерелевантен, он всё равно получает ненулевой вес.

⚡️ Screening: выбрасывай ненужное

Multiscreen заменяет softmax на скрининг (screening) — каждый токен оценивается независимо по порогу.

Работает так:

✔️Токен релевантен (сходство выше порога) → учитывается

✔️Токен нерелевантен → полностью отбрасывается, вес = 0

Главное отличие: сумма весов может быть любой — 0, 0.5, 3.7, не обязательно 1.0. Модель может вернуть "ничего релевантного нет" вместо "надо что-то выбрать из того, что есть".

Аналогия: вместо "раздели 100 рублей между всеми, даже если они не помогли" теперь "кто помог — получает по 100, остальные — ничего".

📊 Результаты: где это работает лучше всего

1️⃣ Обучение на огромных learning rates

- Transformer расходится при скорости обучения > 0.001

- Multiscreen стабильна при скорости 1.0 — это в 100 раз выше

Почему это важно: можно обучать модели быстрее, с меньшим подбором гиперпараметров.

2️⃣ Работает на 40% эффективнее

Multiscreen достигает той же точности, что и Transformer, используя на 40% меньше параметров. При одинаковом бюджете вычислений Multiscreen даёт лучший результат.

3️⃣ Не "теряется в середине"

ABCDigits тест: запомнить "A=123456, B=789012..." из контекста 131,072 токенов.

- Transformer: проваливается, особенно если информация в середине

- Multiscreen: почти 100% точность, даже на контекстах в 10x длиннее обучающих

4️⃣ Инференс в 3 раза быстрее

На контексте 100,000 токенов Multiscreen работает в 2.3-3.2x быстрее — просто пропускает нерелевантные токены.

💡 Для чего это нужно

✅Длинные документы: модель не теряет важную информацию из середины 100-страничного PDF.

✅Быстрые эксперименты: можно обучать с огромной скоростью обучения → меньше времени на подбор параметров.

✅Дешёвый инференс: меньше параметров + пропуск ненужного = быстрее генерация, дешевле API.

Главное открытие: отбрасывать ненужное эффективнее, чем распределять внимание по всему. Multiscreen доказала это цифрами — быстрее в 3 раза, стабильнее в 100 раз, точнее на 40% меньших параметрах.

Попробуйте современные LLM в AI Wiz 2.0 — доступ из дашборда.

#AIWiz #Multiscreen #LLM #Transformer #DeepLearning

Гаджеты и электроника

5,73 млн интересуются