Популярные тесты для оценки больших языковых моделей, такие как Massive Multitask Language Understanding (MMLU), имеют ряд ограничений. — Хайтек+.