18 подписчиков

Transformer 2017 (ИИ (Искусственный интеллект) от простого к сложному. Серия статей)

2 дня назад2 дня назад

2 мин

Transformer 2017 — это та самая архитектура, которая запустила всю современную эру больших языковых моделей (ChatGPT, Grok, Claude, Gemini, Llama и т.д.). Её представили в знаменитой статье «Attention Is All You Need» (июнь 2017), авторы — команда из Google (Ashish Vaswani и ещё 7 человек). До 2017 года для работы с текстом (перевод, генерация, понимание) использовали в основном RNN / LSTM / GRU: Transformer сказал: «Забудьте про последовательность, давайте просто внимание (attention) — и всё». Attention Is All You Need = вся модель построена только на механизме внимания (self-attention), без рекуррентных слоёв и свёрток. Модель видит все слова сразу и сама решает, на какие из них обратить внимание при обработке каждого слова. Подписывайтесь на канал!

Оглавление

Что было до Transformer (почему это прорыв)
Ключевые компоненты Transformer (просто и понятно)Главная идея в двух словах

Transformer 2017 — это та самая архитектура, которая запустила всю современную эру больших языковых моделей (ChatGPT, Grok, Claude, Gemini, Llama и т.д.). Её представили в знаменитой статье «Attention Is All You Need» (июнь 2017), авторы — команда из Google (Ashish Vaswani и ещё 7 человек).

Что было до Transformer (почему это прорыв)

До 2017 года для работы с текстом (перевод, генерация, понимание) использовали в основном RNN / LSTM / GRU:

Они обрабатывали слова по порядку (sequentially) — слово за словом.
Проблемы:Долго обучаются (нельзя параллелить на GPU по-настоящему).
Плохо запоминают дальние зависимости (vanishing gradient — забывают начало длинного предложения).
Тренировка на длинных текстах — адски медленная.

Transformer сказал: «Забудьте про последовательность, давайте просто внимание (attention) — и всё».

Attention Is All You Need = вся модель построена только на механизме внимания (self-attention), без рекуррентных слоёв и свёрток.

Модель видит все слова сразу и сама решает, на какие из них обратить внимание при обработке каждого слова.

Ключевые компоненты Transformer (просто и понятно)Главная идея в двух словах

Input Embedding + Positional Encoding
Слова → векторы (как всегда).
Но порядок слов важен → добавляют positional encoding (синусоиды), чтобы модель понимала, где какое слово стоит.
Self-Attention (само-внимание) — сердце модели
Для каждого слова модель спрашивает:«Какие другие слова в предложении важны для меня прямо сейчас?»
Вычисляет три вектора на слово:
Query (что я ищу)
Key (что другие предлагают)
Value (что взять, если совпало)
Attention score = softmax(Query · Key / √d) → веса
Выход = сумма Value × веса.Это позволяет слову «it» сразу понять, что оно относится к «animal», даже если они далеко друг от друга.
Multi-Head Attention
Не одно внимание, а 8–16 параллельных «голов» (heads).
Каждая голова смотрит на разные аспекты (одна на синтаксис, другая на семантику и т.д.).
Потом всё склеивают → модель видит текст с разных ракурсов.
Feed-Forward Network (просто MLP после attention)
После внимания — обычная полносвязная сеть на каждое слово независимо.
Residual connections + LayerNorm
Добавляют вход к выходу слоя (skip-connections) → помогает обучать очень глубокие модели.
Encoder + Decoder (в оригинале)Encoder: много слоёв self-attention → богатое представление текста.
Decoder: self-attention (на уже сгенерированное) + cross-attention (на encoder) → генерирует перевод/ответ по словам.
(В GPT-подобных моделях — только decoder, без encoder — это autoregressive генерация.)

Почему это взорвало мир (2017 → сейчас)

Параллелизм → обучается в 10+ раз быстрее RNN (всё матричные умножения — GPU paradise).
Длинные зависимости → видит весь текст сразу, не теряет контекст даже в 1000+ токенах.
Масштабируемость → кинь больше данных, больше параметров, больше GPU → качество растёт предсказуемо.
Именно поэтому GPT-1 (2018) → GPT-2 → GPT-3 → GPT-4 и все остальные — все на базе Transformer (или его вариациях).

Без этой статьи 2017 года не было бы ни ChatGPT в 2022, ни текущего AI-бума. Это буквально «ChatGPT-момент» для нейросетей — только на 5 лет раньше.

Подписывайтесь на канал!