Кратко разбираем, почему BLEU и ROUGE уже не справляются с оценкой современных языковых моделей Когда мы оценивали первые чат-боты, основным инструментом были автоматические метрики: BLEU, ROUGE, METEOR. Однако с появлением сложных языковых моделей стало очевидно, что эти метрики не справляются с оценкой качества ответов. Традиционные метрики анализируют только совпадение слов, игнорируя смысл. Они не понимают, что разные формулировки могут содержать одинаковую информацию. Эти метрики не учитывают нюансы формулировок и стиля общения. Они не могут оценить, насколько ответ уместен в конкретной ситуации. Один и тот же запрос может получить разные, но равноценные ответы. Традиционные метрики не могут работать с такой вариативностью. Запрос: "Как правильно завести автомобиль зимой?" Эталонный ответ: "Для зимнего запуска двигателя проверьте уровень масла, заряд аккумулятора и используйте предпусковой подогреватель." Ответ модели: "Перед запуском зимой убедитесь в исправности аккумулятора, ур
Почему традиционные метрики не работают для оценки LLM
2 сентября 20252 сен 2025
1 мин