22 подписчика

ChatGPT скоро устареет: что строят вместо трансформеров

5 апреля5 апр

3 мин

Есть такой момент в истории любой технологии, когда инженеры начинают тихо строить следующую — пока все ещё восхищаются текущей. Примерно это сейчас происходит с архитектурой, на которой работают ChatGPT, Claude и все остальные большие языковые модели. Называется она «трансформер». Придумали в 2017 году. С тех пор — полный захват мира. И вот проблема. Трансформер устроен так: когда он читает текст, каждое слово «смотрит» на все остальные слова в документе и решает, что важно, а что нет. Это и есть его суперсила — он видит связи между далёкими частями текста. Но за это приходится платить. Если текст вдвое длиннее — работы не вдвое больше, а вчетверо. Вчетверо длиннее — в шестнадцать раз больше. Такая вот математика. Для коротких сообщений это незаметно. Но когда нужно проанализировать целую книгу, кодовую базу из сотни файлов или часовую запись совещания — счётчик на серверах начинает крутиться с угрожающей скоростью. Именно поэтому большой контекст у Claude или GPT стоит дороже: буквал

Оглавление

Почему трансформер начинает скрипеть
Mamba: идея из теории управления
Победил не революционер, а компромисс

Называется она «трансформер». Придумали в 2017 году. С тех пор — полный захват мира.

И вот проблема.

Почему трансформер начинает скрипеть

Трансформер устроен так: когда он читает текст, каждое слово «смотрит» на все остальные слова в документе и решает, что важно, а что нет. Это и есть его суперсила — он видит связи между далёкими частями текста.

Но за это приходится платить. Если текст вдвое длиннее — работы не вдвое больше, а вчетверо. Вчетверо длиннее — в шестнадцать раз больше. Такая вот математика.

Для коротких сообщений это незаметно. Но когда нужно проанализировать целую книгу, кодовую базу из сотни файлов или часовую запись совещания — счётчик на серверах начинает крутиться с угрожающей скоростью. Именно поэтому большой контекст у Claude или GPT стоит дороже: буквально больше денег за каждый дополнительный кусок текста.

Исследователи смотрели на это несколько лет и думали: должно быть что-то лучше.

Mamba: идея из теории управления

В декабре 2023 года два исследователя — Альберт Гу из Карнеги Меллон и Три Дао из Принстона — опубликовали статью о модели под названием Mamba.

Идея пришла не из ИИ, а из старой инженерной математики. Там, где трансформер каждый раз смотрит на весь текст целиком, Mamba ведёт что-то вроде «текущего конспекта» — компактного внутреннего состояния, которое обновляется по мере чтения. Прочитал новый абзац — обновил конспект, забыл неважное, запомнил главное.

Это принципиально другая логика. Текст вдвое длиннее — работы ровно вдвое больше. Линейная зависимость вместо квадратичной. На практике Mamba обрабатывает тексты в 220 тысяч слов там, где обычная модель того же размера упирается в потолок уже на 65 тысячах.

За два года Mamba прошла путь от академической статьи до реального продакшена. Mistral выпустил на её основе модель для кода, которая обогнала конкурента в полтора раза крупнее. IBM встроил Mamba в свой флагман Granite 4.0. AI21 сделал модель с контекстом в 256 тысяч слов, которая помещается на одну видеокарту. В начале 2026 вышла уже третья версия — Mamba-3.

Победил не революционер, а компромисс

Тут исследователи обнаружили нечто обидное. Mamba отлично справляется с длинными текстами, но у неё есть слабость: точный поиск конкретного факта в середине большого документа. «Как звали человека, упомянутого на странице 47?» — трансформер ответит уверенно, Mamba может промахнуться.

Выяснилось, что лучший вариант — не выбирать одно из двух, а смешивать.

NVIDIA взяла это за основу своей линейки Nemotron. В их архитектуре на каждые восемь-десять слоёв Mamba приходится один слой трансформерного внимания. Mamba тащит на себе всю рутинную обработку длинного текста и работает быстро. Редкие слои внимания подключаются только там, где нужна точность. Итог — скорость выросла втрое по сравнению с чистым трансформером, точность не упала.

Та же логика у Microsoft в Phi-4, у IBM в Bamba, у AI21 в Jamba. Отрасль тихо, без пресс-конференций, переезжает на гибридные архитектуры.

Есть ещё более странные идеи

Параллельно существует RWKV — модель без механизма внимания вообще. Полностью. Работает по принципу старых рекуррентных сетей, но с современными трюками обучения. Развивается силами открытого сообщества под крылом Linux Foundation, уже на седьмой версии. Поддерживает теоретически бесконечный контекст при постоянном расходе памяти. Экзотика, но рабочая.

И совсем на переднем крае — подход под названием Test-Time Training. Там модель не просто читает твой текст — она буквально учится на нём прямо во время ответа, записывая важное прямо в свои параметры. Исследователи показали, что такая система на длинных документах работает быстрее трансформера в 2–3 раза, не теряя в качестве. В продакшен это пока не вышло, но направление есть.

Что это значит для тебя

Пока ты пользуешься ChatGPT или Claude, за кулисами идёт тихая архитектурная революция. Не потому что трансформеры плохие — они отличные. Просто есть задачи, где они дороги и медлительны: анализ большого договора, работа с целой кодовой базой, длинные разговоры с контекстом на несколько часов.

Гибридные модели решают именно это. И через год-два они, скорее всего, станут стандартом — просто под теми же привычными названиями ChatGPT, Claude или чего-то нового.

Смена фундамента в доме незаметна жильцам. Пока не заедет новая мебель и не окажется, что комнаты стали больше.