Возможности языковой модели YandexGPT 2 решили проверить в решение тестов ЕГЭ. Нейросеть попросили пройти тест по литературе, где она выполнила все задания, в том числе и творческое.
Оценка составила 55 баллов, что приблизило её к среднему показателю (64 балла по итогам 2022 года), который набирают российские школьники. Также нейросеть смогла преодолеть минимальный порог, необходимый для поступления в вуз, который установлен на уровне 40 баллов. Решала нейросеть тест так, как это сделал бы обычны школьник: сначала сгенерировала ответы, а затем внесла их в бланк. Отмечается, что результаты проверяли официальные эксперты ЕГЭ по литературе.
Для YandexGPT 2 выполнение такого теста стало непростой задачей, поскольку он проверяет её знания сразу с нескольких сторон. В него включены вопросы для оценки эрудиции, стиля письма и творческих способностей. В частности, в первой части нейросеть проанализировала произведение и ответила на вопросы к нему, а во второй ей пришлось написать сочинение на заданную тему.
«Стандартным тестом для оценки эрудиции языковых моделей в мире считается MMLU: он включает вопросы разной степени сложности из 57 областей знания. Так можно объективно сравнить несколько нейросетей, но нельзя оценить качество их ответов на открытые или творческие вопросы. Именно поэтому мы предложили YandexGPT 2 сдать ЕГЭ по литературе. Его задания тесно связаны с текстом, языком и пониманием культурного контекста», — отметил Алексей Гусаков, технический директор «Яндекс Поиска».