7 подписчиков

🔹 Метрики качества ответов LLM

СегодняСегодня

~1 мин

🔹 Как понять, хорош ли ответ генеративной модели (LLM — large language model)? 🔸 Метрики нужны, чтобы быстро ловить регрессии и сравнивать версии модели: автоматические дают сигнал на CI, человек проверяет факты и полезность. 🔸 BLEU и ROUGE измеряют n‑gram overlap с эталонными ответами: BLEU — «precision» совпадающих фрагментов, ROUGE — «recall/длинная общая подпоследовательность». Работают, когда есть надёжные референсы, но пропускают корректные парафразы. Пример: эталон «Кошка сидит на ковре», кандидат «На ковре сидит кошка» — высокая перекрываемость, но семантика может быть сложнее. 🔸 Perplexity (перплексия) — мера средней «неопределённости» модели по лог‑вероятности токенов; полезна во время обучения и для обнаружения деградации, но не всегда коррелирует с фактической правдивостью ответа. 🔸 Human eval остаётся золотым стандартом для фактов и полезности: дорого и шумно, поэтому хук — комбинируйте: автоматические метрики для быстрых тестов, human eval для финальной проверки.

🔹 Как понять, хорош ли ответ генеративной модели (LLM — large language model)?

🔸 Метрики нужны, чтобы быстро ловить регрессии и сравнивать версии модели: автоматические дают сигнал на CI, человек проверяет факты и полезность.

🔸 BLEU и ROUGE измеряют n‑gram overlap с эталонными ответами: BLEU — «precision» совпадающих фрагментов, ROUGE — «recall/длинная общая подпоследовательность». Работают, когда есть надёжные референсы, но пропускают корректные парафразы. Пример: эталон «Кошка сидит на ковре», кандидат «На ковре сидит кошка» — высокая перекрываемость, но семантика может быть сложнее.

🔸 Perplexity (перплексия) — мера средней «неопределённости» модели по лог‑вероятности токенов; полезна во время обучения и для обнаружения деградации, но не всегда коррелирует с фактической правдивостью ответа.

🔸 Human eval остаётся золотым стандартом для фактов и полезности: дорого и шумно, поэтому хук — комбинируйте: автоматические метрики для быстрых тестов, human eval для финальной проверки.

📚 Комбинируйте метрики: perplexity + BLEU/ROUGE для CI, human eval для релиза.

#CODERIKK #Prompt #Middle

➡️ Мы в Telegram - Сетке - Дзен

Буду рад вашей реакции здесь⬇️