1. Механизм attention в больших языковых моделях
Внимание или выравнивание?
Механизм attention одна из самых мощных идей, продвинувших обработку естественного языка (и не только) в последние годы. Что же в нем такого увлекательного? Изначально он был предложен для сетей типа sequence-to-sequence, то есть на входе и на выходе последовательность. В оригинальной статье используется для машинного перевода с английского на французский. На картинке слева показаны веса α, которые и определяют механизм attention. Они задают то, сколько "внимания" (attention) нужно уделять каждому слову из входного предложения...
Attention
🌟🌟🌟