Prism Transformer: новый подход к обработке внимания в ИИ

ВчераВчера

~1 мин

⚡ DeepDigest.ru arXiv cs.LG · 29 Jun 2026 Исследователь Шубхам Аггарвал представил новую архитектуру — Prism Transformer. В отличие от традиционных систем Multi-head attention, где ресурсы распределяются равномерно между всеми «головками» на каждом уровне модели, Prism Transformer использует прогрессивное распределение: на ранних слоях применяется меньше широких «головок» для выявления локальных паттернов, а на глубоких — множество узких «головок» для анализа специализированных лингвистических элементов. При этом модель не требует дополнительных затрат на обучение или вывод и сохраняет привычные параметры. Тесты на моделях разного масштаба (124 млн, 354 млн и 757 млн параметров) показали, что Prism Transformer превосходит стандартные реш ... статья продолжается на сайте 🔗 Читать на сайте #arxivcslg #ИИ #технологии

⚡ DeepDigest.ru

arXiv cs.LG · 29 Jun 2026

Исследователь Шубхам Аггарвал представил новую архитектуру — Prism Transformer. В отличие от традиционных систем Multi-head attention, где ресурсы распределяются равномерно между всеми «головками» на каждом уровне модели, Prism Transformer использует прогрессивное распределение: на ранних слоях применяется меньше широких «головок» для выявления локальных паттернов, а на глубоких — множество узких «головок» для анализа специализированных лингвистических элементов. При этом модель не требует дополнительных затрат на обучение или вывод и сохраняет привычные параметры. Тесты на моделях разного масштаба (124 млн, 354 млн и 757 млн параметров) показали, что Prism Transformer превосходит стандартные реш

... статья продолжается на сайте

🔗 Читать на сайте #arxivcslg #ИИ #технологии