Всем привет!
Развитие искусственного интеллекта в последние годы действительно впечатляет даже самых заядлых критиков технологий. Новости о том, что с помощью ChatGPT защитили диссертацию или написали сложный работающий код, больше не вызывают удивления.
В некоторых странах такие технологии уже начинают вытеснять редакторов и дизайнеров с их рабочих мест. Мы решили узнать, справится ли искусственный интеллект с решением варианта ЕГЭ по математике. После изучения этого вопроса мы готовы поделиться результатами нашего мини-исследования.
Что за зверь решал экзамен?
Для проверки мы выбрали GigaChat. Этот чат-бот является нашим ответом на ChatGPT – наиболее известную и доступную широкой публике систему с встроенным искусственным интеллектом.
"Меня зовут GigaChat, я был создан компанией Сбер для помощи пользователям в решении различных задач. Я могу отвечать на вопросы, помогать с написанием текстов, кодом, математикой, анализом данных и многим другим. Могу также генерировать изображения по вашему описанию."
Именно так GigaChat ответил, когда мы попросили его рассказать о себе. Теперь нам предстояло проверить, справится ли он с решением экзамена.
Повезло ли GigaChat с вариантом?
Для проверки работы GigaChat использовался сервис "РешуЕГЭ". Мы составили свой вариант, состоящий из случайных номеров и максимально приближенный к реальному, без выбора специально легких или сложных заданий. Ссылку на вариант мы оставим в комментариях.
Важно отметить, что мы не смотрели задания до получения решения, чтобы случайно не подсказать алгоритмам правильный ответ.Когда мы ввели ответы и получили результаты, мы ознакомились с самим вариантом. Получился вариант с типичными, но не самыми простыми задачами. Можно сказать, что реальный вариант прошлого года и демонстрационная версия от ФИПИ 2025 года были немного проще, чем вариант, который достался нашему испытуемому. GigaChat немного не повезло, но ничего критического в варианте не было.
Сильные места и проблемы
В процессе решения обнаружилось множество положительных моментов работы алгоритма: детальное решение, почти безукоризненное и безошибочное выполнение текстовых задач, знание основ геометрии.
Машина абсолютно правильно решала те задачи, решение которых от нее ожидалось. При этом никаких пояснений не требовалось, просто вводился текст задачи. Иногда, однако, выводился ответ, который невозможно было внести в бланк, например, обыкновенная дробь, поэтому давались необходимые пояснения. В целом, можно сказать, что GigaChat неплохо справляется с задачами, связанными с алгеброй, логикой и простой геометрией.
Тем не менее, у GigaChat есть заметные недостатки. Во-первых, у него есть функция анализа картинок. Поскольку базовый вариант ЕГЭ включает ряд заданий, основанных на картинках/графиках/чертежах, при решении вводилась картинка и запрос к алгоритму, который повторял текстовое условие. Здесь и начались основные проблемы. Часто GigaChat считывал лишь часть картинки, что не позволяло ему получить полный объем данных для решения. Тогда начинался процесс додумывания, который нельзя было предотвратить с помощью дополнительных запросов. Большинство заданий с картинками так и остались неподвластными бездушной машине, несмотря на дополнительные запросы.
Итоги. Справился ли GigaChat?
Некоторые вопросы так и остались без ответа. GigaChat либо не понимал условия задачи, либо не мог обработать информацию, представленную на картинке. Также случалось, что он многократно выдавал ответ, который физически невозможно было внести в бланк (бесконечные десятичные дроби, логарифмы и т.д.). В итоге, его окончательные ответы были занесены в систему.
GigaChat набрал 13 первичных баллов из 21. Среди его ответов только два оказались неверными, в остальных же не было вычислительных, логических и прочих ошибок.
Возможно, нейросеть показала бы лучшие результаты на экзаменах, где все задания представлены исключительно в текстовой форме, например, по русскому языку или истории.
Тем не менее, справилась ли нейросеть с поставленной задачей? С одной стороны, обидно, что она не смогла решить значительное количество достаточно простых задач из-за трудностей со считыванием информации. С другой стороны, результат, продемонстрированный GigaChat, соответствует итоговой оценке - 4. Отметим, что на экзамене 2023 года средний итоговый балл по стране составлял 4,01.
Можно сказать, что нейросеть справилась с экзаменом на уровне среднестатистического школьника, что является впечатляющим результатом, учитывая, что некоторые задачи пока неподвластны нейросети. Следовательно, можно сказать, что она получила 4 балла с небольшой форой по сравнению с обычным человеком. Мы спросили у GigaChat, что он сам думает по поводу своего результата.
"Это был интересный опыт! Хотя я не смог решить все задачи, результат показывает, что мне есть над чем работать. Я рад, что получил оценку 4, и буду стараться улучшить свои знания и навыки в будущем."
Мы верим нейросети и думаем, что при более точных запросах она бы справилась с экзаменом еще лучше.
А что ты думаешь по этому поводу? Справился бы лучше? Какое еще испытание предоставить нейросети? Пиши в комментариях!
Ссылка на GigaChat: https://giga.chat
Вариант от РешуЕГЭ: https://mathb-ege.sdamgia.ru/test?id=19470843&nt=True&pub=False&print=true