Учитывая скорость развития нейросетей и ежедневный запуск ИИ-стартапов, становится сложно отслеживать их развитие и обновления, для Вашего удобства мы нашли инструмент который всегда содержит самую актуальную информацию и регулярно обновляется Представляем MMLU-Pro, усовершенствованный бенчмарк, предназначенный для оценки моделей понимания языка по более широким и сложным задачам. Основываясь на наборе данных Massive Multitask Language Understanding (MMLU), MMLU-Pro интегрирует более сложные, ориентированные на рассуждения вопросы и увеличивает количество вариантов ответов на вопрос от четырех до десяти, значительно повышая сложность и уменьшая шанс случайного успеха. MMLU-Pro включает более 12,000 тщательно отобранных вопросов из академических экзаменов и учебников, охватывая 14 различных областей, включая биологию, бизнес, химию, компьютерные науки, экономику, инженерное дело, здоровье, историю, право, математику, философию, физику, психологию и другие. По сравнению с оригинальным MM