Найти в Дзене

Остальное контекст - структурированное содержание прошлого диалога + динамический промпт, релевантный не просто общей задачи, а текущему

Остальное контекст - структурированное содержание прошлого диалога + динамический промпт, релевантный не просто общей задачи, а текущему проблемному фокусу именного данного треда. Т.е. системный промпт может быть не для всей модели, а буквально для данного вопроса данного диалога. В результате в реальности каждый запрос может запросто тянуть на 10-20К токенов, хотя сам диалог может включать короткие реплики. При этом, если мы юзаем режим стандартного тарифа, то при мощных диалогах они для модели глубоко убыточны (нас финансируют инвесторы). Но если мы это делаем через API, то мы сами платим денюжку, т.е. память это дорогое удовольствие. Конечно, можно тестировать self-hosted опенсерсные модели, но для этого нужно могучее железо. И не факт, что OS не будет сама по себе тупой даже с памятью. Есть ли паллиативное решение для малых ресурсов? Когда главный ресурс - это голова, а не бабло? Пока зоопарк из фронта + n8n/make - может давать промежуточное решение, когда есть много мелких за

Остальное контекст - структурированное содержание прошлого диалога + динамический промпт, релевантный не просто общей задачи, а текущему проблемному фокусу именного данного треда. Т.е. системный промпт может быть не для всей модели, а буквально для данного вопроса данного диалога.

В результате в реальности каждый запрос может запросто тянуть на 10-20К токенов, хотя сам диалог может включать короткие реплики.

При этом, если мы юзаем режим стандартного тарифа, то при мощных диалогах они для модели глубоко убыточны (нас финансируют инвесторы). Но если мы это делаем через API, то мы сами платим денюжку, т.е. память это дорогое удовольствие. Конечно, можно тестировать self-hosted опенсерсные модели, но для этого нужно могучее железо. И не факт, что OS не будет сама по себе тупой даже с памятью.

Есть ли паллиативное решение для малых ресурсов? Когда главный ресурс - это голова, а не бабло?

Пока зоопарк из фронта + n8n/make - может давать промежуточное решение, когда есть много мелких задач (вызовов модели), и все это оркестрируется. Т.е. по сути память = агент. Пока мне сложно сказать - насколько это по деньгам, это еще предстоит проверить.

Итог: Заявления о том, что очередная модель на каком-то бенчмарке выиграла еще 1,5% уже мало интересны, так как это вообще никак не приближает нас к цели. Даже большое контекстное окно не решает проблему, ибо это путь в никуда. Но сама задача очень интересная.