🔹 Как понять, хорош ли ответ генеративной модели (LLM — large language model)? 🔸 Метрики нужны, чтобы быстро ловить регрессии и сравнивать версии модели: автоматические дают сигнал на CI, человек проверяет факты и полезность. 🔸 BLEU и ROUGE измеряют n‑gram overlap с эталонными ответами: BLEU — «precision» совпадающих фрагментов, ROUGE — «recall/длинная общая подпоследовательность». Работают, когда есть надёжные референсы, но пропускают корректные парафразы. Пример: эталон «Кошка сидит на ковре», кандидат «На ковре сидит кошка» — высокая перекрываемость, но семантика может быть сложнее. 🔸 Perplexity (перплексия) — мера средней «неопределённости» модели по лог‑вероятности токенов; полезна во время обучения и для обнаружения деградации, но не всегда коррелирует с фактической правдивостью ответа. 🔸 Human eval остаётся золотым стандартом для фактов и полезности: дорого и шумно, поэтому хук — комбинируйте: автоматические метрики для быстрых тестов, human eval для финальной проверки.