GPT-4 Turbo API — это более быстрая и дешёвая версия GPT-4 для использования через API. Модель получила увеличенный контекст, поддержку snapshots и стала заметно выгоднее по цене по сравнению с классическим GPT-4. Для разработчиков это важно по трём причинам: ниже стоимость токенов, быстрее ответы и возможность зафиксировать конкретную версию модели через snapshot, чтобы поведение не менялось неожиданно после очередного обновления. На демо всё выглядит быстро. Но когда в запрос уходит большой system prompt, история переписки и куча документов, time-to-first-token начинает расти. Пользователь видит «умную» модель, но ощущает медленный интерфейс. Типичная ошибка, когда в каждый запрос отправляется весь возможный контекст «на всякий случай». Это бьёт и по скорости, и по стоимости. Если использовать плавающий алиас модели вместо snapshot, ответы могут немного меняться после апдейтов. Для критичных сценариев это неприятно: сегодня ваш ассистент отвечает так, а завтра чуть иначе. Первое прав