🔍 Multiscreen: архитектура, которая обучается в 100 раз быстрее и не теряет информацию 1 апреля 2026 исследователи из RIKEN опубликовали исследование "Screening Is Enough" — оно о архитектуре Multiscreen, которая решает главную проблему всех LLM: в длинных текстах модели "теряют" важную информацию. 📍 Что не так с обычными LLM Представьте: вы читаете книгу на 100,000 слов и должны запомнить одно имя из середины. Обычные Transformer "размазывают" внимание по всему тексту — каждому слову достаётся крошечная доля. Проблема называется attention fading (затухание внимания): чем длиннее контекст, тем сильнее "разбавляется" важная информация. 🖋Почему так происходит? Softmax (механизм внимания) работает как конкуренция: есть фиксированный "бюджет" = 1.0, который делится между всеми токенами. Если токенов 100,000 — каждому достаётся 0.00001. Важный момент: модель с Softmax не может сказать "этот токен бесполезен". Даже если токен совершенно нерелевантен, он всё равно получает ненулевой
🔍 Multiscreen: архитектура, которая обучается в 100 раз быстрее и не теряет информацию
8 апреля8 апр
2 мин