Найти в Дзене
Вся правда о ИИ

Transformer 2017 (ИИ (Искусственный интеллект) от простого к сложному. Серия статей)

Transformer 2017 — это та самая архитектура, которая запустила всю современную эру больших языковых моделей (ChatGPT, Grok, Claude, Gemini, Llama и т.д.). Её представили в знаменитой статье «Attention Is All You Need» (июнь 2017), авторы — команда из Google (Ashish Vaswani и ещё 7 человек). До 2017 года для работы с текстом (перевод, генерация, понимание) использовали в основном RNN / LSTM / GRU: Transformer сказал: «Забудьте про последовательность, давайте просто внимание (attention) — и всё». Attention Is All You Need = вся модель построена только на механизме внимания (self-attention), без рекуррентных слоёв и свёрток. Модель видит все слова сразу и сама решает, на какие из них обратить внимание при обработке каждого слова. Подписывайтесь на канал!
Оглавление

Transformer 2017 — это та самая архитектура, которая запустила всю современную эру больших языковых моделей (ChatGPT, Grok, Claude, Gemini, Llama и т.д.). Её представили в знаменитой статье «Attention Is All You Need» (июнь 2017), авторы — команда из Google (Ashish Vaswani и ещё 7 человек).

Что было до Transformer (почему это прорыв)

До 2017 года для работы с текстом (перевод, генерация, понимание) использовали в основном RNN / LSTM / GRU:

  • Они обрабатывали слова по порядку (sequentially) — слово за словом.
  • Проблемы:Долго обучаются (нельзя параллелить на GPU по-настоящему).
    Плохо запоминают дальние зависимости (vanishing gradient — забывают начало длинного предложения).
    Тренировка на длинных текстах — адски медленная.

Transformer сказал: «Забудьте про последовательность, давайте просто внимание (attention) — и всё».

Attention Is All You Need = вся модель построена только на механизме внимания (self-attention), без рекуррентных слоёв и свёрток.

Модель видит все слова сразу и сама решает, на какие из них обратить внимание при обработке каждого слова.

Ключевые компоненты Transformer (просто и понятно)Главная идея в двух словах

  1. Input Embedding + Positional Encoding
    Слова → векторы (как всегда).
    Но порядок слов важен → добавляют
    positional encoding (синусоиды), чтобы модель понимала, где какое слово стоит.
  2. Self-Attention (само-внимание) — сердце модели
    Для каждого слова модель спрашивает:«Какие другие слова в предложении важны для меня прямо сейчас?»
    Вычисляет три вектора на слово:
    Query (что я ищу)
    Key (что другие предлагают)
    Value (что взять, если совпало)
    Attention score = softmax(Query · Key / √d) → веса
    Выход = сумма Value × веса.Это позволяет слову «it» сразу понять, что оно относится к «animal», даже если они далеко друг от друга.
  3. Multi-Head Attention
    Не одно внимание, а 8–16 параллельных «голов» (heads).
    Каждая голова смотрит на разные аспекты (одна на синтаксис, другая на семантику и т.д.).
    Потом всё склеивают → модель видит текст с разных ракурсов.
  4. Feed-Forward Network (просто MLP после attention)
    После внимания — обычная полносвязная сеть на каждое слово независимо.
  5. Residual connections + LayerNorm
    Добавляют вход к выходу слоя (skip-connections) → помогает обучать очень глубокие модели.
  6. Encoder + Decoder (в оригинале)Encoder: много слоёв self-attention → богатое представление текста.
    Decoder: self-attention (на уже сгенерированное) + cross-attention (на encoder) → генерирует перевод/ответ по словам.
    (В GPT-подобных моделях — только decoder, без encoder — это autoregressive генерация.)

Почему это взорвало мир (2017 → сейчас)

  • Параллелизм → обучается в 10+ раз быстрее RNN (всё матричные умножения — GPU paradise).
  • Длинные зависимости → видит весь текст сразу, не теряет контекст даже в 1000+ токенах.
  • Масштабируемость → кинь больше данных, больше параметров, больше GPU → качество растёт предсказуемо.
  • Именно поэтому GPT-1 (2018) → GPT-2 → GPT-3 → GPT-4 и все остальные — все на базе Transformer (или его вариациях).

Без этой статьи 2017 года не было бы ни ChatGPT в 2022, ни текущего AI-бума. Это буквально «ChatGPT-момент» для нейросетей — только на 5 лет раньше.

Подписывайтесь на канал!