🔍 Multi-Token Attention: почему новая архитектура от Meta может кардинально изменить подход к LLM?
Механизм внимания (attention) давно стал сердцем и душой всех современных больших языковых моделей (LLM). С момента публикации знаменитой статьи «Attention is All You Need» в 2017 году подход к вычислению внимания практически не менялся: берём один токен-запрос, сопоставляем его с ключами и определяем «ценность» (value). Но недавно исследователи из FAIR (Meta AI) предложили новый взгляд на эту проблему, представив механизм Multi-Token Attention (MTA). 📌 Что нового предложили исследователи? Стандартный...
6 лет назад
​​Внимание или выравнивание?
Механизм attention одна из самых мощных идей, продвинувших обработку естественного языка (и не только) в последние годы. Что же в нем такого увлекательного? Изначально он был предложен для сетей типа sequence-to-sequence, то есть на входе и на выходе последовательность. В оригинальной статье используется для машинного перевода с английского на французский. На картинке слева показаны веса α, которые и определяют механизм attention. Они задают то, сколько "внимания" (attention) нужно уделять каждому слову из входного предложения...