Decoder‑Only Transformers генерируют текст, используя только слой‑декодер, в отличие от классических трансформеров, где есть отдельный энкодер и декодер; это упрощает архитектуру и повышает эффективность при задачах предсказания следующего токена. Такие модели способны обрабатывать запросы в реальном времени, экономя до 40 % вычислительных ресурсов по сравнению с полными трансформерами. В 2026 году они составляют более 30 % всех развернутых языковых сервисов. Decoder‑Only Transformer состоит из повторяющихся блоков декодера, каждый из которых содержит механизм самовнимания и позиционную feed‑forward сеть. Архитектура проста: входные токены сразу проходят через несколько слоёв, где каждый слой учитывает только предшествующие токены. Отсутствие отдельного энкодера сокращает количество параметров и операций свертки, поэтому инференс ускоряется в среднем на 2,5× по сравнению с двунаправленными трансформерами. Обучение Decoder‑Only моделей происходит по задаче авторегрессии – предсказываем
Как Decoder-Only Transformers работают и отличаются от обычных
6 мая6 мая
2 мин