Добавить в корзинуПозвонить
Найти в Дзене
ProAi

ATLAS от Together AI: адаптивная система, которая разгоняет вывод AI-моделей до 400% быстрее

Знаете, что сейчас тормозит развертывание AI в крупных компаниях? Невидимая стена производительности. И виноваты в этом, как ни странно, так называемые статические спекуляторы — они просто не успевают за меняющимися задачами. Представьте себе: спекуляторы — это маленькие AI-модели, которые работают в паре с большими языковыми моделями (LLM) во время инференса (то есть вывода, генерации ответов). Они «набрасывают» несколько токенов наперед, а основная модель потом проверяет их все разом, параллельно. Эта штука называется speculative decoding (спекулятивное декодирование), и она стала просто незаменимой для бизнеса, который хочет снизить расходы и задержки при выводе. Вместо того чтобы генерировать токены по одному, система принимает сразу несколько — и скорость взлетает. Сегодня Together AI объявила о новом исследовании и системе под названием ATLAS (AdapTive-LeArning Speculator System). Цель — помочь компаниям пробить эту самую стену статических спекуляторов. По сути, это самообучающая
Оглавление
   AI-развертывание с использованием статических и адаптивных спекуляторов. Оптимизация инференса и производительность AI через спекулятивное декодирование с системой ATLAS.
AI-развертывание с использованием статических и адаптивных спекуляторов. Оптимизация инференса и производительность AI через спекулятивное декодирование с системой ATLAS.

Знаете, что сейчас тормозит развертывание AI в крупных компаниях? Невидимая стена производительности. И виноваты в этом, как ни странно, так называемые статические спекуляторы — они просто не успевают за меняющимися задачами.

Представьте себе: спекуляторы — это маленькие AI-модели, которые работают в паре с большими языковыми моделями (LLM) во время инференса (то есть вывода, генерации ответов). Они «набрасывают» несколько токенов наперед, а основная модель потом проверяет их все разом, параллельно. Эта штука называется speculative decoding (спекулятивное декодирование), и она стала просто незаменимой для бизнеса, который хочет снизить расходы и задержки при выводе. Вместо того чтобы генерировать токены по одному, система принимает сразу несколько — и скорость взлетает.

ATLAS: система, которая учится на ходу

Сегодня Together AI объявила о новом исследовании и системе под названием ATLAS (AdapTive-LeArning Speculator System). Цель — помочь компаниям пробить эту самую стену статических спекуляторов. По сути, это самообучающаяся оптимизация инференса, которая способна выдавать производительность до 400% выше базового уровня, доступного в существующих технологиях вроде vLLM. Вот это да!

Проблема, которую решает ATLAS, критически важная: по мере того как AI-задачи эволюционируют, скорость инференса падает — даже если у вас есть специализированные спекуляторы.

Together AI, кстати, появилась в 2023 году и с самого начала фокусировалась на оптимизации инференса на своей enterprise-платформе. В начале этого года компания привлекла $305 миллионов — спрос растет, клиенты прибывают.

«Компании, с которыми мы работаем, обычно сталкиваются с одним и тем же: когда они масштабируются, их рабочие нагрузки меняются, и спекулятивное выполнение перестает давать тот же прирост скорости, что раньше,» — рассказал Три Дао (Tri Dao), главный научный сотрудник Together AI, в эксклюзивном интервью VentureBeat. «Эти спекуляторы обычно плохо работают, когда домен их рабочей нагрузки начинает смещаться.»

Проблема дрейфа нагрузки, о которой мало кто говорит

Большинство спекуляторов в продакшене сегодня — это «статические» модели. Их обучают один раз на фиксированном датасете, который представляет ожидаемые задачи, потом деплоят — и всё, никакой адаптации. Компании вроде Meta и Mistral поставляют предобученные спекуляторы вместе со своими основными моделями. Платформы инференса типа vLLM используют эти статические спекуляторы, чтобы ускорить вывод без потери качества.

Но есть нюанс. Когда использование AI в компании эволюционирует, точность статического спекулятора падает. Вот прямо обрушивается.

«Если вы компания, которая делает агентов для кодинга, и большинство ваших разработчиков писали на Python, а потом вдруг часть из них переключилась на Rust или C, — скорость начинает падать,» — объясняет Дао. «У спекулятора возникает несоответствие между тем, на чём его обучали, и тем, какая нагрузка реально идёт.»

Этот самый дрейф нагрузки — скрытый налог на масштабирование AI. Компании либо мирятся со снижением производительности, либо вкладываются в переобучение кастомных спекуляторов. А этот процесс — всего лишь снимок во времени, который быстро устаревает.

Как работают адаптивные спекуляторы: двойная модель

ATLAS использует архитектуру с двумя спекуляторами, которая сочетает стабильность и адаптацию:

  • Статический спекулятор — тяжеловесная модель, обученная на широких данных, обеспечивает стабильную базовую производительность. Это своего рода «нижний порог скорости».
  • Адаптивный спекулятор — легковесная модель, которая учится непрерывно на живом трафике. Она на лету специализируется под новые домены и паттерны использования.
  • Контроллер с учетом уверенности — слой оркестрации, который динамически выбирает, какой спекулятор использовать. Он настраивает «глубину предсказания» (lookahead) на основе оценок уверенности.

«Пока адаптивный спекулятор ничему не научился, у нас всё ещё есть статический спекулятор, который помогает дать прирост скорости в самом начале,» — пояснил Бен Атхиваратукун (Ben Athiwaratkun), старший AI-исследователь в Together AI. «Как только адаптивный спекулятор становится более уверенным, скорость растёт со временем.»

Техническая фишка тут в том, чтобы балансировать acceptance rate (как часто целевая модель соглашается с предложенными токенами) и draft latency (задержку на драфт). По мере того как адаптивная модель учится на паттернах трафика, контроллер всё больше полагается на лёгкий спекулятор и увеличивает lookahead. Это усиливает прирост производительности.

Пользователям не нужно ничего настраивать. «Со стороны пользователя не нужно крутить никакие ручки,» — сказал Дао. «С нашей стороны мы настроили эти ручки за пользователей, чтобы получить хороший прирост скорости.»

Производительность на уровне кастомного железа

По тестам Together AI, ATLAS выдаёт 500 токенов в секунду на модели DeepSeek-V3.1, когда полностью адаптируется. Что ещё круче — эти цифры на GPU Nvidia B200 достигают или даже превосходят специализированные чипы для инференса, вроде кастомного железа от Groq.

«Улучшение на уровне софта и алгоритмов способно закрыть разрыв с реально специализированным железом,» — говорит Дао. «Мы видели 500 токенов в секунду на этих огромных моделях — даже быстрее, чем на некоторых кастомных чипах.»

Прирост на 400%, который заявляет компания, — это кумулятивный эффект от всего набора оптимизаций Turbo от Together. Квантизация FP4 даёт прирост на 80% относительно базового FP8. Статический Turbo Speculator добавляет ещё 80-100%. А адаптивная система накладывается сверху. Каждая оптимизация усиливает эффект других.

По сравнению со стандартными движками инференса типа vLLM или Nvidia TensorRT-LLM улучшение существенное. Together AI меряет свои результаты против более сильного базового уровня из двух для каждой нагрузки, перед применением спекулятивных оптимизаций.

Компромисс память-вычисления: как это работает

Прирост производительности идёт от эксплуатации фундаментальной неэффективности современного инференса: потраченной впустую вычислительной мощности.

Дао объяснил, что обычно во время инференса большая часть вычислительной мощности не используется полностью.

«Во время инференса, который, кстати, сейчас — доминирующая нагрузка, вы в основном используете подсистему памяти,» — сказал он.

Спекулятивное декодирование обменивает простаивающие вычисления на сокращение обращений к памяти. Когда модель генерирует по одному токену за раз, она ограничена памятью. GPU простаивает в ожидании памяти. Но когда спекулятор предлагает пять токенов, а целевая модель проверяет их одновременно, загрузка вычислений взлетает, а обращения к памяти остаются примерно теми же.

«Общий объём вычислений для генерации пяти токенов тот же, но вам нужно было обратиться к памяти только один раз, а не пять,» — объясняет Дао.

Думайте об этом как об интеллектуальном кешировании для AI

Для инфраструктурных команд, знакомых с традиционной оптимизацией баз данных, адаптивные спекуляторы работают как интеллектуальный слой кеширования — но с принципиальным отличием.

Традиционные системы кеширования типа Redis или memcached требуют точного совпадения. Вы сохраняете точно такой же результат запроса и извлекаете его, когда такой же запрос повторяется. Адаптивные спекуляторы работают иначе.

«Можете думать об этом как об интеллектуальном способе кеширования — не сохранении точных данных, а выявлении каких-то паттернов, которые вы видите,» — пояснил Дао. «В общем, мы наблюдаем, что вы работаете с похожим кодом или управляете вычислениями похожим образом. Мы можем затем предсказать, что скажет большая модель. И просто становимся всё лучше и лучше в этих предсказаниях.»

Вместо сохранения точных ответов система учится паттернам того, как модель генерирует токены. Она распознаёт, что если вы редактируете Python-файлы в конкретной кодовой базе, определённые последовательности токенов становятся более вероятными. Спекулятор адаптируется к этим паттернам, улучшая свои предсказания со временем — без необходимости в идентичных входных данных.

Где это особенно полезно: RL-тренировка и эволюционирующие нагрузки

Два enterprise-сценария особенно выигрывают от адаптивных спекуляторов:

  • Обучение с подкреплением (RL training): Статические спекуляторы быстро выходят из выравнивания по мере того, как политика (policy) эволюционирует во время обучения. ATLAS непрерывно адаптируется к меняющемуся распределению политики.
  • Эволюционирующие нагрузки: Когда компании открывают новые варианты использования AI, состав нагрузки меняется. «Может быть, они начали использовать AI для чат-ботов, но потом поняли, эй, он может писать код, и начали переключаться на код,» — сказал Дао. «Или они понимают, что эти AI реально могут вызывать инструменты, управлять компьютерами, делать бухгалтерию и всё такое.»

В сеансе vibe-кодинга адаптивная система может специализироваться под конкретную кодовую базу, которую редактируют. Это файлы, которых не было во время обучения. Это ещё больше повышает acceptance rates и скорость декодирования.

Что это значит для компаний и экосистемы инференса

ATLAS уже доступна на выделенных эндпоинтах Together AI как часть платформы — без дополнительной платы. У компании более 800 000 разработчиков (против 450 000 в феврале), и у всех есть доступ к этой оптимизации.

Но более широкие последствия выходят за рамки продукта одного вендора. Переход от статической к адаптивной оптимизации — это фундаментальное переосмысление того, как должны работать платформы инференса. По мере того как компании разворачивают AI в разных доменах, индустрии нужно будет двигаться от моделей, обученных один раз, к системам, которые учатся и улучшаются непрерывно.

Together AI исторически выпускала часть своих исследовательских техник в open source и сотрудничала с проектами вроде vLLM. Хотя полностью интегрированная система ATLAS проприетарная, некоторые из базовых техник могут со временем повлиять на более широкую экосистему инференса.

Для компаний, которые хотят быть впереди в AI, месседж ясен: адаптивные алгоритмы на обычном железе могут сравняться с кастомным кремнием — и обойдутся во много раз дешевле. По мере того как этот подход зреет по всей индустрии, программная оптимизация всё чаще побеждает специализированное железо.

Если вас заинтересовали адаптивные системы, оптимизация инференса и вообще всё, что касается новых AI-технологий, у меня для вас отличная новость:🔔 Чтобы узнавать о таких прорывах первыми и следить за миром AI, подписывайтесь на мой канал «ProAI» в Telegram!