Трансформер — одна из самых влиятельных архитектур нейронных сетей, которая сделала возможным эффективное обучение современных ИИ-моделей на огромных объёмах данных. До появления трансформеров господствовали рекуррентные нейронные сети. Они читали текст последовательно, слово за словом, а каждый следующий шаг зависел от предыдущего. Трансформер заменил этот подход механизмом самовнимания (self-attention): каждый токен одновременно «смотрит» на все остальные токены и решает, что на что влияет. Это сделало обучение масштабируемым — миллионы примеров можно обрабатывать параллельно. Как трансформеры захватили весь ИИ, какие ограничения есть у этой архитектуры и что может прийти ей на смену? Об этом мы поговорили с исследователем искусственного интеллекта Михаилом Бурцевым в подкасте «Мыслить как учёный». Выпуск — во вторник!