Остальное контекст - структурированное содержание прошлого диалога + динамический промпт, релевантный не просто общей задачи, а текущему проблемному фокусу именного данного треда. Т.е. системный промпт может быть не для всей модели, а буквально для данного вопроса данного диалога. В результате в реальности каждый запрос может запросто тянуть на 10-20К токенов, хотя сам диалог может включать короткие реплики. При этом, если мы юзаем режим стандартного тарифа, то при мощных диалогах они для модели глубоко убыточны (нас финансируют инвесторы). Но если мы это делаем через API, то мы сами платим денюжку, т.е. память это дорогое удовольствие. Конечно, можно тестировать self-hosted опенсерсные модели, но для этого нужно могучее железо. И не факт, что OS не будет сама по себе тупой даже с памятью. Есть ли паллиативное решение для малых ресурсов? Когда главный ресурс - это голова, а не бабло? Пока зоопарк из фронта + n8n/make - может давать промежуточное решение, когда есть много мелких за
Остальное контекст - структурированное содержание прошлого диалога + динамический промпт, релевантный не просто общей задачи, а текущему
23 сентября 202523 сен 2025
1
1 мин