Представьте: каждую неделю выходит новая языковая модель. То OpenAI что-то обновит, то конкуренты выкатят свежую версию. И вот ты сидишь в компании, у тебя куча AI-агентов крутится в production, и думаешь: а стоит ли переходить на новую модель? А вдруг станет хуже? А как вообще это проверить на реальных пользователях, а не на синтетических тестах?
Вот именно для этого стартап Raindrop (они занимаются observability для AI) запустил новую штуку: Experiments. По их словам, это первый A/B-тестинг, заточенный специально под корпоративных AI-агентов. То есть теперь можно сравнить, как смена модели, промпта или набора инструментов влияет на работу агента с живыми пользователями. Наконец-то!
Что это вообще такое и зачем?
Короче, Raindrop уже делал платформу для мониторинга AI-систем: помогал отлавливать баги и странности в поведении генеративных моделей. А теперь они пошли дальше и добавили возможность сравнивать разные версии агентов прямо в боевых условиях.
Experiments встроен в подписку Pro (это $350 в месяц или $0.0007 за взаимодействие) и доступен прямо сейчас на raindrop.ai.
Суть такая: ты меняешь что-то в своем агенте (новая модель, другой промпт, добавил инструмент или вообще переписал пайплайн), запускаешь эксперимент и смотришь, что изменилось. Raindrop показывает разницу по миллионам реальных взаимодействий с пользователями: как изменилось использование инструментов, какие намерения пользователей обрабатываются лучше или хуже, сколько ошибок стало больше или меньше. Можно даже разбить по языкам или другим демографическим факторам.
Наглядно и по делу
Интерфейс показывает результаты визуально: вот базовая версия агента, вот экспериментальная, а вот разница между ними. Если негативных сигналов стало больше (например, агент чаще не справляется с задачей или выдает обрезанный код), это сразу видно. Если позитивные метрики выросли (более полные ответы, лучше пользовательский опыт), тоже понятно.
Бен Хайлак, сооснователь и технический директор Raindrop, в видео-анонсе (оно есть в оригинале статьи) объясняет: с помощью Experiments команды видят, «как буквально что угодно изменилось». И главное, эти данные легко читать: не нужно быть data scientist’ом, чтобы понять, стало лучше или хуже.
По сути, Raindrop предлагает подходить к AI-агентам так же серьезно, как к обычному софту: трекать изменения, делиться инсайтами, ловить регрессии до того, как они успеют навредить.
Откуда вообще взялся Raindrop?
Напомню контекст. Raindrop (раньше назывался Dawn AI) появился как одна из первых платформ для мониторинга генеративного AI в production. Как писал VentureBeat ранее в этом году, команда решила проблему «черного ящика»: AI-продукты падают постоянно, но не так, как обычный софт. Обычное ПО выбрасывает exception, а AI «падает молча». Может выдать чушь, зациклиться, забыть контекст или отказаться отвечать, и ты не поймешь, почему.
Сооснователи Raindrop (Бен Хайлак, бывший дизайнер интерфейсов в Apple, Алексис Гауба и Зубин Сингх Котича) столкнулись с этим сами, когда строили AI-продукты. «Мы начали с разработки AI-продуктов, а не инфраструктуры, — рассказывал Хайлак VentureBeat. — Но довольно быстро поняли: чтобы масштабировать что-то серьезное, нужны инструменты для понимания поведения AI. А таких инструментов не было».
Теперь с Experiments они расширили миссию: раньше помогали ловить проблемы, теперь помогают измерять улучшения.
«Evals проходят, агенты падают»
Вот это, кстати, прямая цитата от Алексис Гаубы из её поста в LinkedIn. И это очень точно описывает боль разработчиков.
Традиционные evals (тесты для моделей) работают как unit-тесты: хороши для бенчмарков, но не учитывают, что агент в реальности может работать часами, вызывать сотни инструментов и сталкиваться с непредсказуемыми действиями пользователей.
«Evals pass, agents fail», — говорит Гауба. Команда Raindrop слышала это от клиентов снова и снова.
Experiments закрывает этот разрыв. Показывает, что реально меняется, когда ты обновляешь систему. Не в вакууме, а в production, с живыми людьми.
Как это работает на практике?
Можно сравнивать модели, инструменты, намерения, свойства агента — что угодно. Платформа покажет разницу в метриках:
- Как часто используются те или иные инструменты
- Сколько ошибок и какого типа
- Длина разговоров и ответов
- Частота зависаний или циклов
Можно идти от обратного: заметил проблему (допустим, «агент застревает в цикле»), смотришь, какая модель или фича ее вызывает, кликаешь на метрику, углубляешься в trace и находишь корень проблемы. Фиксишь быстро.
Плюс, можно шарить ссылки на результаты экспериментов с коллегами или вышестоящими, чтобы все были в курсе.
Интеграция и масштаб
По словам Хайлака, Experiments интегрируется с популярными платформами feature flags (например, Statsig). Если у вас таких нет, можно просто сравнивать производительность агента «вчера vs сегодня» без дополнительных настроек.
Но есть нюанс: чтобы результаты были статистически значимыми, нужно примерно 2000 пользователей в день. Raindrop сам следит за размером выборки и предупредит, если данных мало для валидных выводов.
«Мы помешаны на том, чтобы метрики вроде Task Failure и User Frustration были такими, из-за которых ты бы разбудил дежурного инженера», — говорит Хайлак. И к каждой агрегированной цифре можно углубиться в конкретные диалоги и события.
Безопасность данных
Raindrop работает в облаке, но может делать on-premise редактирование персональных данных для тех компаний, кому это критично. Есть SOC 2 compliance и фича PII Guard: AI автоматически убирает чувствительную инфу из сохраненных данных. «Мы очень серьезно относимся к защите данных клиентов», — подчеркивает Хайлак.
Сколько стоит и что еще внутри?
Experiments входит в план Pro: $350/месяц или $0.0007 за взаимодействие. В Pro также есть продвинутые инструменты исследования, кластеризация тем, кастомное отслеживание проблем, семантический поиск.
Есть план Starter попроще: $65/месяц или $0.001 за взаимодействие. Там базовая аналитика, детекция проблем, сигналы от пользователей, алерты в Slack, трекинг юзеров. Оба плана можно попробовать бесплатно 14 дней.
Для крупных корпораций есть Enterprise-план с кастомным прайсингом: там SSO, кастомные алерты, интеграции, edge-PII редактирование и приоритетная поддержка.
Почему это важно сейчас?
Вот смотрите. AI-агенты уже не игрушка, это реальные рабочие инструменты в компаниях. И если раньше можно было просто запустить модель и надеяться на лучшее, то теперь бизнес требует прозрачности и предсказуемости.
Raindrop ставит себя на пересечении AI-аналитики и observability классического софта. Их фокус на «measure truth» (как говорится в видео) — это часть общей тенденции в индустрии к ответственности и прозрачности в AI-операциях.
Вместо того чтобы полагаться только на оффлайн-бенчмарки, Raindrop делает ставку на реальные пользовательские данные и контекст. Компания надеется, что это позволит разработчикам двигаться быстрее, находить причины проблем раньше и выкатывать лучшие модели с уверенностью.
Ну и правда: если ты можешь сравнить две версии агента на миллионах взаимодействий и увидеть разницу в цифрах, это совсем другой уровень контроля, чем просто «ну вроде работает».
Если вам интересно, как компании внедряют AI-агентов, какие инструменты для этого используют и что нового происходит в мире искусственного интеллекта, я регулярно пишу об этом.🔔 Чтобы узнать больше о мониторинге AI-агентов, A/B-тестировании моделей и следить за новостями мира AI, подписывайтесь на мой канал «ProAI» в Telegram!