Иллюстрированный трансформатор. Часть 2
Self-attention в деталях Для начала следует рассмотреть то, как вычислить self-attention при помощи векторов. После мы перейдём к реализации с применением матриц. Первым шагом в вычислении self-attention является создание трёх векторов из каждого входного вектора кодера (в этом случае из каждого слова). Поэтому для каждого слова мы создаем вектор запроса, вектор ключа и вектор значения. Эти векторы создаются при помощи умножения вложения на три матрицы, которые были обучены нами. Стоит обратить внимание на то, что эти новые векторы меньше по размеру, чем вектор вложения...
932 читали · 3 года назад
PCA в Машинном обучении простыми словами
Анализ главных компонент – это метод понижения размерности Датасета (Dataset), который преобразует больший набор переменных в меньший с минимальными потерями информативности. Уменьшение количества переменных в наборе данных происходит в ущерб точности, но хитрость здесь заключается в том, чтобы потерять немного в точности, но обрести простоту. Поскольку меньшие наборы данных легче исследовать и визуализировать, анализ данных становится намного проще и быстрее для Алгоритмов (Algorithm) Машинного обучения (ML) ...