RAG система: метрики которые реально важны в production Когда разрабатываешь RAG систему (что такое рассказывал тут), легко увлечься точностью ответов и забыть про экономику - а потом получить счет за API, который превышает бюджет всего проекта Cost per Query - считаем реальную стоимость Стоимость одного запроса складывается из нескольких компонентов: - Embedding векторизация документов и запросов - Поиск по векторной базе (обычно копейки, но при масштабе имеет значение) - Запросы к LLM (основная статья расходов) Для мониторинга использую Arize Phoenix с LlamaIndex - настройка занимает буквально 3 строчки, а взамен получаешь детальную разбивку затрат по каждому этапу pipeline # Настройка трассировки с Phoenix (один раз) from openinference.instrumentation.llama_index import LlamaIndexInstrumentor from phoenix.otel import register tracer_provider = register() LlamaIndexInstrumentor().instrument(tracer_provider=tracer_provider) # Дальше работаешь как обычно - все метрики собираются а