Большинство проверяют промпт один раз и считают работу завершенной. В продакшене пользователи ведут себя непредсказуемо. 1. Однократная проверка Быстро, но ненадёжно. Только для прототипов. 2. Ручное тестирование Проверка на десятках примеров. Не масштабируется, но выявляет основные проблемы. 3. Автоматизированная оценка Промпт прогоняется через тесты с автоматическими метриками. Грейдеры оценивают результаты, метрики агрегируются. Типы грейдеров: • Кодовые — проверяют формат и синтаксис • Модельные — оценивают качество содержания • Человеческие — финальная экспертная валидация Систематический подход выявляет проблемы до релиза. Подробное руководство: https://ailean.ru/blog/testirovanie-ai-sistem-kachestvo-promptov