В мире LLM-разработки часто приходится вручную: собирать логи вызовов, придумывать метрики качества, запускать пайплайны тестов и затем точечно править промпты, чтобы добиться стабильности. Opik — это open-source платформа от Comet для наблюдаемости, оценки и оптимизации LLM-приложений: трассировки разговоров и ответов (Trace/Span), датасеты и тест-сюиты, интеграции с популярными фреймворками и модели метрик. Впечатляет наличие Agent Optimizer с пятью алгоритмами (включая генетический и байесовский) — можно улучшать инструкции автоматически, а результаты прогонять через метрику. Отдельная сила — библиотека метрик: от heuristic (например, BLEU/ROUGE) до LLM-as-a-Judge для проверок вроде Hallucination, AnswerRelevance, а также наборов judge по рискам и смещениям (bias). По масштабу Opik заявляет 40+ млн трасс в день, а по интеграциям поддерживает LangChain, LlamaIndex, OpenAI/Anthropic, OpenTelemetry и др. Для старта: pip install opik и дальше подключайте трассировку/оценку в ваш пайп
🚀 Opik (open-source) добавляет трассировку, оценку и автоматическую оптимизацию промптов — как в LangSmith, но бесплатно
ВчераВчера
1 мин