Self-attention в деталях Для начала следует рассмотреть то, как вычислить self-attention при помощи векторов. После мы перейдём к реализации с применением матриц. Первым шагом в вычислении self-attention является создание трёх векторов из каждого входного вектора кодера (в этом случае из каждого слова). Поэтому для каждого слова мы создаем вектор запроса, вектор ключа и вектор значения. Эти векторы создаются при помощи умножения вложения на три матрицы, которые были обучены нами. Стоит обратить внимание на то, что эти новые векторы меньше по размеру, чем вектор вложения...
Из всех операций, которые можно применять для решения физических задач, есть одна, знание которой позволяет практически "в уме" решать множество задач про электромагнитные силы и поля, вращение твердых тел и много-много других. Более того, понимание сути данной математической операции ставит вас на целую голову выше остальных, в понимании физики. На первый взгляд странная операция при ближайшем рассмотрении оказывается очень простой. Итак, векторное произведение векторов Но вначале кое-что важное...