Чатботы стали привычным продуктом для многих. Однако ждать по 5-7 секунд генерации ответа в chatGPT некомильфо. Это крайне долго для технологического adoption. Дело в используемом железе. Хоть чипы Nvidia и творят чудеса, но GPU не были заточены под задачи генеративного ИИ.
На сцену выходит новое поколение чипов LPU (language processing unit) от стартапа Groq, основанного в 2016 году создателем гугловских процессоров TPU Джонатом Рассом.
LPU — кастомные чипы (подобно ASICам в майнинге биткоина), заточенные под задачу обработки и генерации текста. Чипы Groq справляются с задачами чатбота в среднем в 10 раз быстрее, чем Nvidia!Обрабатывая более 300 токенов в секунду!
И это на чипах 2022 года (14 нм). Каков же будет разрыв, когда они запустят 4нм в 2024?
Успех возможен благодаря архитектуре LPU — оперативная память находится прямо в чипе, что значительно снижает время на передачу сигнала. Причем Groq решил и другую проблему. Он не зависит от тайваньского TSMC. Чипы Groq на 100% проектируются и производятся в США.
Сегодня бизнес модель Groq строится на продажах чипов и предоставлении своих мощностей в облаке по inference as a service. Они зарабатывают на каждой итерации в чатботах
Если верить раннему инвестору Чамату (король SPACов), аудитория разработчиков Groq выросла за месяц х3 до 10 тыс на публичном запуске API. При этом компания планирует разместить 1 млн чипов к концу 2025 года!
По слухам, Groq пока что убыточен, но подушка в $360 млн финансирования от VC (последний раунд C был в апреле 2021 по $1,1 млрд) и планы по масштабированию помогут с маржинальностью
К тому же Groq поглотил стартап по разработке ИИ решений для бизнеса Definitive Intelligence, таргетируя крупный бизнес уровня Aramco (уже партнеры) и госструктуры
Преимущество чипов Groq налицо. LPU имеет потенциал сделать революцию на рынке ИИ, предоставляя более эффективное и быстрое железо. Кажется, начинка датацентров в облачных сервисах (и не только) может измениться совсем скоро. Битва началась!