Ученые из Англии решили изучить, насколько хорошо искусственный интеллект сможет сдать экзамены университета. Важным критерием была скрытность – ChatGPT не должен был быть опознан профессорами. Итогом эксперимента стало то, что чат-бот получил лучшие оценки, чем реальные студенты, когда дело касалось работ начального уровня. Затем тенденция менялась в противоположную сторону.
Исследователи Университета Рединга (University of Reading) создали несколько десятков аккаунтов студентов, обучающихся на психологов. Никто не знал, какие именно аккаунты управляются искусственным интеллектом. Затем ChatGPT отвечал на вопросы из разных блоков психологии уровня бакалавра. Задания были разными по сложности и варьировались от уровня первокурсников до уровня третьекурсников.
Практически все работы показались профессорам настоящими – только в 6% случаев экзаменаторы понимали, что перед ними труд искусственного интеллекта. 84% работ чат-бота оказались оценены лучше, чем работы человека, однако разница не была большой – в среднем, 0.5 балла. Экзаменаторы рассказали, как они обнаруживали искусственный интеллект – его выдавало слишком хорошее качество.
Программы, обнаруживающие следы искусственного интеллекта в тексте, показали свою неэффективность. Руководитель эксперимента, Питер Скарф, утверждает, что GPTZero (созданная, кстати, OpenAI) и Turnitin хороши, но не в ситуациях, подобным эксперименту. Стоит отметить, что сложные задания дались ChatGPT несколько хуже. Дело в том, что учеба на последних курсах университета требует умения анализировать и делать выводы, с чем человеческий разум пока справляется лучше.
Исследователи отметили, что у преподавателей и администрации учебных заведений нет выбора – учитывая постоянное развитие искусственного интеллекта и сложность поиска его в тексте, запретить его не получится, а значит, нужно будет придумать способ сделать нейросети частью учебы. Скарф заявил, что непосредственно в рабочей деятельности человек, несомненно, будет пользоваться столь удобным инструментом, а значит, университет должен обучить студентов, как им пользоваться. Строго говоря, эксперимент английских ученых обозначил уже существующую проблему оценки экзаменов, которую нужно решать.