Найти в Дзене

✨ AWS и Cerebras объединяются для ускорения ИИ-инференса

Amazon Web Services (AWS) и Cerebras Systems объявили о сотрудничестве, направленном на создание самой быстрой системы ИИ-инференса. Партнёрство вводит новую архитектуру, называемую дисaggregated inference, которая разделяет задачи ИИ между различными типами специализированного оборудования. Каждый запрос ИИ включает два этапа: фазу предзаполнения для чтения запроса и фазу декодирования для генерации ответа. Чтение запроса является вычислительно сложной задачей, которая эффективно выполняется на чипах AWS Trainium. Генерация ответа требует доступа к всей модели ИИ для каждого создаваемого слова, что значительно усложняет процесс. Cerebras использует чип с ваферной архитектурой, который хранит всю модель на чипе, обеспечивая тысячи раз большую пропускную способность памяти по сравнению со стандартными графическими процессорами. В новой системе Trainium обрабатывает начальную фазу запроса и передаёт данные контекста на чип Cerebras. Чип Cerebras затем генерирует выходные данные со

✨ AWS и Cerebras объединяются для ускорения ИИ-инференса

Amazon Web Services (AWS) и Cerebras Systems объявили о сотрудничестве, направленном на создание самой быстрой системы ИИ-инференса.

Партнёрство вводит новую архитектуру, называемую дисaggregated inference, которая разделяет задачи ИИ между различными типами специализированного оборудования.

Каждый запрос ИИ включает два этапа: фазу предзаполнения для чтения запроса и фазу декодирования для генерации ответа.

Чтение запроса является вычислительно сложной задачей, которая эффективно выполняется на чипах AWS Trainium.

Генерация ответа требует доступа к всей модели ИИ для каждого создаваемого слова, что значительно усложняет процесс.

Cerebras использует чип с ваферной архитектурой, который хранит всю модель на чипе, обеспечивая тысячи раз большую пропускную способность памяти по сравнению со стандартными графическими процессорами.

В новой системе Trainium обрабатывает начальную фазу запроса и передаёт данные контекста на чип Cerebras.

Чип Cerebras затем генерирует выходные данные со скоростью до 3000 токенов в секунду.

Источник

@aichangelogs@modelping@modelping