Автор Хамель Хусейн Вы когда-нибудь тратили недели на создание системы ИИ, только чтобы понять, что вы понятия не имеете, работает ли она на самом деле? Вы не одиноки. Я заметил, что команды повторяют одни и те же ошибки при использовании LLM для оценки результатов ИИ: Результат? Команды оказываются погребенными под горами показателей или данных, которым они не доверяют и которые не могут использовать. Прогресс останавливается. Все расстраиваются. Например, я нередко вижу панели мониторинга, которые выглядят так: Отслеживание множества оценок по шкале от 1 до 5 часто является признаком плохого процесса оценки (позже я расскажу, почему). В этом посте я покажу вам, как избежать этих ловушек. Решение — использовать технику, которую я называю «Critique Shadowing (Критическое отслеживание)». Вот как это сделать, шаг за шагом (ссылки на английский текст). Шаг 1: Найдите главного эксперта в предметной области Шаг 2: Создайте набор данных Шаг 3: Поручите эксперту в предметной области выносить