18 подписчиков

«Attention Is All You Need» (в переводе — «Внимание — всё, что нужно») Идея создания ИИ 21 века

2 дня назад2 дня назад

1 мин

Статья 2017 года, о которой я говорил (та самая прорывная, где ввели архитектуру Transformer), — это знаменитая работа под названием «Attention Is All You Need» (в переводе — «Внимание — всё, что нужно»). Ashish Vaswani

Noam Shazeer

Niki Parmar

Jakob Uszkoreit

Llion Jones

Aidan N. Gomez

Łukasz Kaiser

Illia Polosukhin

Именно в этой статье впервые описана архитектура Transformer, которая полностью отказалась от рекуррентных слоёв (RNN/LSTM) и свёрток, оставив только механизмы внимания (attention). Это и стало фундаментом для всех современных больших моделей: GPT, BERT, Claude, Grok, Llama, Gemini и т.д. Если коротко — без этой статьи 2017 года не было бы ChatGPT в 2022-м и всего того, что мы видим сейчас в 2026-м. По сути статья изменила представление о ИИ и как и философия Иммануила Канта изменила вектор человеческой истории

Noam Shazeer

Niki Parmar

Jakob Uszkoreit

Llion Jones

Aidan N. Gomez

Łukasz Kaiser

Illia Polosukhin

Статья 2017 года, о которой я говорил (та самая прорывная, где ввели архитектуру Transformer), — это знаменитая работа под названием «Attention Is All You Need» (в переводе — «Внимание — всё, что нужно»).

Полные детали статьи

Полное название: Attention Is All You Need
Авторы (8 человек, все из Google на тот момент, вклад равный, порядок случайный):

Ashish Vaswani
Noam Shazeer
Niki Parmar
Jakob Uszkoreit
Llion Jones
Aidan N. Gomez
Łukasz Kaiser
Illia Polosukhin

Дата публикации: 12 июня 2017 года (первая версия на arXiv)
Конференция: Представлена на NeurIPS (тогда NIPS) 2017, Long Beach, California
arXiv ID: 1706.03762
Ссылка на оригинал: https://arxiv.org/abs/1706.03762 (PDF бесплатно доступен)
Цитаты: К 2026 году — более 170–200 тысяч цитирований (одна из самых влиятельных работ в ИИ XXI века).

Именно в этой статье впервые описана архитектура Transformer, которая полностью отказалась от рекуррентных слоёв (RNN/LSTM) и свёрток, оставив только механизмы внимания (attention). Это и стало фундаментом для всех современных больших моделей: GPT, BERT, Claude, Grok, Llama, Gemini и т.д.

Если коротко — без этой статьи 2017 года не было бы ChatGPT в 2022-м и всего того, что мы видим сейчас в 2026-м.

По сути статья изменила представление о ИИ и как и философия Иммануила Канта изменила вектор человеческой истории