247 подписчиков

ElastixAI выходит на сцену, предлагая инновационный подход на базе FPGA для суперкомпьютеров в сфере искусственного интеллекта

16 марта16 мар

5 мин

В эксклюзивном интервью стартап из Сиэтла представил свою инновационную технологию совместного проектирования ПО, машинного обучения и аппаратного обеспечения. Она превращает обычные серверы FPGA в высокопроизводительные системы для искусственного интеллекта. ElastixAI, компания из Сиэтла, специализирующаяся на аппаратном обеспечении для ИИ, основанная бывшими инженерами Apple и Meta из области машинного обучения, вышла на рынок с новой платформой на базе FPGA. Эта платформа обещает в 50 раз снизить совокупную стоимость владения и на 80% уменьшить энергопотребление по сравнению с использованием графических процессоров Nvidia для больших языковых моделей. В мае 2025 года ElastixAI привлекла 18 миллионов долларов посевного капитала под руководством Fuse VC. Компания позиционирует свою систему Elastix Rack как полноценную альтернативу серверной инфраструктуре с графическими процессорами. Первые поставки планируется начать в середине 2026 года. В интервью All About Circuits соучредители Мо

Оглавление

Обучение ИИ vs Логический вывод ИИ
Почему ПЛИС лучше, чем специализированные микросхемы

ElastixAI, компания из Сиэтла, специализирующаяся на аппаратном обеспечении для ИИ, основанная бывшими инженерами Apple и Meta из области машинного обучения, вышла на рынок с новой платформой на базе FPGA. Эта платформа обещает в 50 раз снизить совокупную стоимость владения и на 80% уменьшить энергопотребление по сравнению с использованием графических процессоров Nvidia для больших языковых моделей.

В мае 2025 года ElastixAI привлекла 18 миллионов долларов посевного капитала под руководством Fuse VC. Компания позиционирует свою систему Elastix Rack как полноценную альтернативу серверной инфраструктуре с графическими процессорами. Первые поставки планируется начать в середине 2026 года.

В интервью All About Circuits соучредители Мохаммад Растегари (генеральный директор), Саман Надерипаризи (технический директор) и Махьяр Наджиби (директор по стратегическому развитию) объяснили, почему ПЛИС лучше подходят для логического вывода в больших языковых моделях, чем графические процессоры. Они также отметили, что сейчас самое подходящее время для внедрения этой технологии.

Обучение ИИ vs Логический вывод ИИ

Графические процессоры созданы для интенсивных вычислений, например, для обучения больших языковых моделей (LLM). Однако при выполнении задач, связанных с памятью, таких как вывод LLM, они становятся менее эффективными и слабо задействуют ресурсы компьютера. Растегари отметил: "Обучение ограничено вычислениями, а логический вывод — памятью". Это несоответствие объясняет низкую загрузку графического процессора при выводе LLM.

Проблема усугубляется аппаратной негибкостью: 4-битное квантование теоретически удваивает пропускную способность, но, как отметил Растегари, на оборудовании вроде H100, где нет встроенной поддержки, операторам приходилось создавать программное ядро, использующее лишь 10% его возможностей.

В то время как ускорители высшего уровня применяют самые быстрые и дорогие типы памяти, ElastixAI оптимизирует параметры, влияющие на совокупную стоимость владения: пропускную способность и стоимость емкости. Благодаря программной специализации на базе машинного обучения, ElastixAI достигает максимальной производительности с помощью экономичного оборудования (например, улучшенной памяти DDR и HBM), работающего на стандартных коммерческих серверах FPGA. Разработчики утверждают, что такой подход обеспечивает необходимую пропускную способность памяти для высокопроизводительного логический вывода при значительно более низкой стоимости гигабайта по сравнению с большинством премиальных линеек.

Почему ПЛИС лучше, чем специализированные микросхемы

Преимущества программируемых логических интегральных схем (ПЛИС) над специализированными микросхемами стали очевидны на фоне быстрого развития машинного обучения. Растегари, соучредитель компании Xnor.ai, выкупленной Apple в 2020 году за 200 миллионов долларов, а затем занимавшийся оптимизацией логического вывода в модели Meta Llama 405B, приводил Mixture-of-Experts как пример риска.

«Многие компании привлекли капитал для разработки чипов, основываясь на текущих трендах, но затем появился Mixture-of-Experts, — отметил он. — Внезапно этим компаниям пришлось возвращаться к началу и перестраивать свои чипы, чтобы они поддерживали эту технологию, которой не существовало на момент старта разработки». Проблема налицо: создание и производство специализированных чипов занимает более трех лет, тогда как ландшафт машинного обучения может значительно измениться за несколько месяцев.

Требования к пропускной способности при логическом выводе демонстрируют ту же тенденцию. Когда Растегари присоединился к Meta, для голосового взаимодействия хватало 20 токенов в секунду. «Но при логическом выводе требуется, чтобы токены генерировались быстрее в фоновом режиме; теперь нужно 200 токенов в секунду», — добавил он. ПЛИС, в отличие от специализированных чипов, можно перепрограммировать, что делает их более гибкими в ответ на изменяющиеся требования.

«Существует фундаментальный компромисс между универсальностью и эффективностью. Как только вы стремитесь к универсальности, вы теряете в эффективности, потому что вам приходится добавлять дополнительные элементы, чтобы справляться с самыми разными рабочими нагрузками».

Растегари считает, что архитектура трансформеров сейчас достаточно стабильна для реализации на ПЛИС. Однако базовый уровень оптимизации продолжает стремительно развиваться, поэтому привязываться к фиксированной кремниевой архитектуре пока рискованно. На вопрос о том, когда мы откажемся от специализированных чипов, он ответил: «Это будет зависеть от темпов развития машинного обучения».

Мощность, стоимость и совместимость со стойками

Надерипаризи подробно рассказал о производительности Elastix Rack. Он заявил, что в зависимости от скорости обработки токенов можно добиться снижения затрат в 10–50 раз по сравнению с Nvidia B200. Эти цифры отражают различные задержки на пользователя, то есть количество токенов в секунду на каждого пользователя.

Эти данные включают как капитальные, так и операционные расходы на создание полноценного центра обработки данных. Они были подтверждены в сотрудничестве с производителями ПЛИС и операторами дата-центров. По словам Надерипаризи, энергопотребление Elastix Rack снижается в пять раз на каждый токен при аналогичной пропускной способности.

Elastix Rack подходит для стандартных стоечных блоков питания мощностью 17–19 кВт и использует воздушное охлаждение. В то же время Nvidia GB200 NVL72 требует от 120 до 200 кВт и специализированной инфраструктуры с жидкостным охлаждением. Большинство существующих центров обработки данных не могут обеспечить такие условия.

Замена без доработок

ElastixAI интегрирует свой модуль vLLM, заменяющий серверную часть Nvidia CUDA. При этом интерфейсный API остается совместим с OpenAI, что позволяет операторам легко переходить на новую инфраструктуру без изменений в их стеке приложений.

Компания планирует предоставить исследователям инструменты для конвертации моделей, следуя примеру Nvidia с экосистемой CUDA. Надерпаразизи отмечает, что Nvidia сначала бесплатно предоставляла свое ПО исследователям, но все разработки на платформе способствовали росту Nvidia. ElastixAI стремится создать аналогичный эффект, поддерживая разработчиков.

В команду основателей входит Наджиби, работавший над Apple Intelligence и бывший ведущим научным сотрудником Waymo. В совет директоров также входит Джон Гелси, бывший генеральный директор Xnor.ai и основатель Auth0, которую Okta приобрела за 6,5 миллиарда долларов. Гелси возглавляет стратегию и маркетинг в ElastixAI.

На данный момент ElastixAI работает с корпоративными партнерами и операторами центров обработки данных. Поставки оборудования запланированы на середину 2026 года.

Бизнес и финансы

1,13 млн интересуются