Найти в Дзене
Миша Ларченко

​​практически каждого современного LLM – это архитектура трансформера

​​практически каждого современного LLM – это архитектура трансформера. - это скелет, который перемещает все эти числа. - это то, что превращает последовательности токенов и веса в предсказания. - разработано для данных последовательностей (например, языка). - трансформеры могут «оглядываться» на предыдущие токены и - решать, какие из них важны для следующего предсказания. - трансформеры работают слоями, снова и снова проходя по одному и тому же алгоритму. - каждый слой уточняет представление, используя внимание для фокусировки на важных частях входных данных и контекста. - каждый раз, когда генерируется новый токен, он проходит через этот стек слоёв – на каждом этапе. - внутри каждого слоя трансформера: - внутреннее внимание: определяет, какие предыдущие токены важны для текущего предсказания. - многослойные персептроны (MLP): дальнейшая обработка представлений токенов, добавление нелинейности и выразительности. - нормы и остатки слоёв: стабилизируют обучение и предсказание, делая Во

​​практически каждого современного LLM – это архитектура трансформера.

- это скелет, который перемещает все эти числа.

- это то, что превращает последовательности токенов и веса в предсказания.

- разработано для данных последовательностей (например, языка).

- трансформеры могут «оглядываться» на предыдущие токены и

- решать, какие из них важны для следующего предсказания.

- трансформеры работают слоями, снова и снова проходя по одному и тому же алгоритму.

- каждый слой уточняет представление, используя внимание для фокусировки на важных частях входных данных и контекста.

- каждый раз, когда генерируется новый токен, он проходит через этот стек слоёв – на каждом этапе.

- внутри каждого слоя трансформера:

- внутреннее внимание: определяет, какие предыдущие токены важны для текущего предсказания.

- многослойные персептроны (MLP): дальнейшая обработка представлений токенов, добавление нелинейности и выразительности.

- нормы и остатки слоёв: стабилизируют обучение и предсказание, делая Возможны глубокие сети

- позиционные кодировки (например, RoPE): сообщают модели, где находится каждый токен в последовательности

- чтобы «cat» и «catastrophe» не путались по положению

- наложением этих слоёв (иногда десятков или даже сотен)

- трансформеры формируют комплексное понимание вашей подсказки, контекста и истории разговора

- краткое описание трансформера:

- только декодер: модель только предсказывает, что будет дальше, каждый токен сравнивается со всеми предыдущими токенами

- внутреннее внимание выбирает, на чём сосредоточиться (MQA/GQA = эффективные версии для экономии памяти)

- многослойный перцепционный анализ (MLP) после получения внимания для каждого токена (обычно 2 слоя, активация GELU)

- всё

#нейросети · @larchanka