Не каждая задача требует мощи топовых LLM, и иногда можно прилично сэкономить, выбирая подходящий инструмент. Вот несколько наблюдений, когда стоит задуматься об оптимизации расходов на AI: → Оверхед по сложности. Многие стартапы сразу цепляют GPT-4 или Claude Opus "на всякий случай". Но если 90% запросов - это простая классификация, извлечение сущностей или генерация коротких шаблонных ответов, то это жёсткий перерасход. → Бенчмаркинг - наше всё. Вместо интуитивного выбора, замеряйте метрики на ваших данных с разными моделями. Частенько оказывается, что менее мощные open-source или даже старые версии LLM дают схожий перфоманс при гораздо меньших API-костах. → Файнтюн против жирного промпта. Для специфичных доменных задач finetune GPT-3.5 часто уделывает нулевой промпт на GPT-4 по цене/качеству. Инвестиции в обучение более дешёвой модели окупаются быстро. → Декомпозиция задач. Разделение сложной логики на цепочки из простых, дешёвых моделей может быть эффективнее, чем одна большая и д