16 подписчиков

Таалас заменяет программируемые графические процессоры специализированными чипами для искусственного интеллекта

23 февраля23 фев

2 мин

В мире инфраструктуры искусственного интеллекта (ИИ) существует одно основное предположение: гибкость — это главное. Мы используем универсальные графические процессоры (GPU), поскольку модели ИИ меняются каждую неделю, и нам нужен программируемый кремний, который может адаптироваться к новым научным прорывам. Но стартап из Торонто под названием Таалас считает, что именно гибкость сдерживает развитие ИИ. По мнению команды Тааласа, если мы хотим, чтобы ИИ стал таким же распространённым и дешёвым, как пластик, нам нужно перестать «симулировать» интеллект на универсальных компьютерах и начать «встраивать» его непосредственно в кремний. Проблема: «стена памяти» и «налог на GPU» Текущие затраты на работу с большими языковыми моделями (LLM) обусловлены физическим узким местом: «стеной памяти». Традиционные процессоры (GPU) основаны на «архитектуре набора команд» (ISA). Они разделяют вычисления и память. Когда вы запускаете процесс логического вывода в модели вроде Llama-3, чип тратит боль

Но стартап из Торонто под названием Таалас считает, что именно гибкость сдерживает развитие ИИ. По мнению команды Тааласа, если мы хотим, чтобы ИИ стал таким же распространённым и дешёвым, как пластик, нам нужно перестать «симулировать» интеллект на универсальных компьютерах и начать «встраивать» его непосредственно в кремний.

Проблема: «стена памяти» и «налог на GPU»

Текущие затраты на работу с большими языковыми моделями (LLM) обусловлены физическим узким местом: «стеной памяти».

Традиционные процессоры (GPU) основаны на «архитектуре набора команд» (ISA). Они разделяют вычисления и память. Когда вы запускаете процесс логического вывода в модели вроде Llama-3, чип тратит большую часть времени и энергии на перемещение весов из памяти с высокой пропускной способностью (HBM) в ядра обработки. Этот «налог на перемещение данных» составляет почти 90% энергопотребления в современных центрах обработки данных ИИ.

Решение Тааласа радикально: устранить цикл выборки памяти. Используя собственный автоматизированный процесс проектирования, Таалас переводит вычислительный граф конкретной модели непосредственно в физическую схему чипа. В их чипе HC1 (Hardcore 1) веса и архитектура модели буквально встроены в схему кремния.

Производительность HC1: 17 000 токенов в секунду

Результаты такого подхода «напрямую в кремний» переопределяют потолок производительности для логического вывода. На последнем представлении Таалас продемонстрировал работу HC1 с моделью Llama 3.1 8B. В то время как топовый NVIDIA H100 может обслуживать одного пользователя со скоростью около 150 токенов в секунду, HC1 обслуживает ошеломляющие 16 000–17 000 токенов в секунду.

Это меняет «экономику единицы» ИИ:

* Производительность: один чип HC1 может превзойти небольшой центр обработки данных с GPU по объёму обработки для конкретной модели.

* Эффективность: Таалас заявляет об улучшении эффективности в 1000 раз (производительность на ватт и производительность на доллар) по сравнению с обычными чипами.

* Инфраструктура: поскольку веса встроены в схему, нет необходимости во внешней HBM или сложных системах жидкостного охлаждения. Стандартная стойка с воздушным охлаждением может вместить десять таких карт мощностью 250 Вт, обеспечивая мощность целого кластера GPU в одном серверном боксе.

Преодоление 60-дневного барьера: автоматизированный литейный завод

Очевидной «ловушкой» для разработчика ИИ является гибкость. Если сегодня вы встроите модель в чип, что произойдёт, когда завтра появится лучшая модель? Исторически разработка специализированной интегральной схемы (ASIC) занимала два года и десятки миллионов долларов.

Таалас решил эту проблему с помощью автоматизации. Они создали систе...