Server-Sent Events долгое время выглядели как идеальный транспорт для стриминга ответов ИИ: просто, по-HTTP, без сложной инфраструктуры. Именно поэтому SSE так быстро прижились в SDK и демо-проектах. Но по мере того как LLM перестали быть игрушкой и стали дорогим вычислительным сервисом, выяснилось неприятное: SSE плохо сочетается с самой природой генерации токенов. И проблема тут не в скорости сети. Проблема — в потере прогресса. Когда обрыв соединения становится финансовой проблемой Генерация токенов — самая дорогая часть LLM-запроса. Транспорт стоит копейки, инференс — доллары. И именно поэтому транспорт обязан быть максимально надёжным. SSE этому требованию не отвечает. Если соединение обрывается — а для мобильных сетей, Wi-Fi и VPN это норма — всё начинается сначала. Модель повторно генерирует уже выданные токены, пользователь снова ждёт, а счёт за инференс растёт. Типичные сценарии выглядят так: 🚇 пользователь заехал в туннель 📡 телефон сменил сеть 😴 браузер выгрузил вкладку