The Information сообщает, что OpenAI сократила расходы на inference более чем в два раза на некоторых уже существующих моделях, при этом
трафик ChatGPT без входа в аккаунт обслуживался всего на паре сотен GPU Nvidia. Самые очевидные версии: квантизация, изменения в KV-cache, батчинг, speculative decoding и маршрутизация простых запросов на более дешёвые модели. Если это правда, это станет огромным конкурентным рычагом. Более низкая стоимость может повысить маржу, расширить лимиты использования или снизить давление на цены API. Для контекста: скорректированная валовая маржа...