Amazon Web Services (AWS) и Cerebras Systems объявили о сотрудничестве, направленном на создание самой быстрой системы ИИ-инференса. Партнёрство вводит новую архитектуру, называемую дисaggregated inference, которая разделяет задачи ИИ между различными типами специализированного оборудования. Каждый запрос ИИ включает два этапа: фазу предзаполнения для чтения запроса и фазу декодирования для генерации ответа. Чтение запроса является вычислительно сложной задачей, которая эффективно выполняется на чипах AWS Trainium. Генерация ответа требует доступа к всей модели ИИ для каждого создаваемого слова, что значительно усложняет процесс. Cerebras использует чип с ваферной архитектурой, который хранит всю модель на чипе, обеспечивая тысячи раз большую пропускную способность памяти по сравнению со стандартными графическими процессорами. В новой системе Trainium обрабатывает начальную фазу запроса и передаёт данные контекста на чип Cerebras. Чип Cerebras затем генерирует выходные данные со
✨ AWS и Cerebras объединяются для ускорения ИИ-инференса
СегодняСегодня
~1 мин