Найти тему
XX2 ВЕК

Учёные сравнили ChatGPT и другие модели ИИ с реальными студентами

Оглавление

Результаты исследования ставят вопрос о том, каким образом оценивать успеваемость студентов, как в области медицины, так и по другим академическим дисциплинам.

Уильям Хёрш, M.D., выучивший поколения студентов по специальности «медицинская информатика» в Орегонском университете наук о здоровье, заинтересовался растущим влиянием искусственного интеллекта. Он задумался над тем, каких результатов добъётся ИИ в его собственном классе.

Поэтому он решил провести эксперимент.

Он испытал шесть видов генеративных больших языковых моделей ИИ, например ChatGPT, на онлайн-версии своего популярного вводного курса по биомедицинской информатике, чтобы проверить, какие у них будут результаты по сравнению с живыми, думающими студентами. В исследовании, опубликованном в журнале npj Digital Medicine, дан ответ: лучше, чем три четверти его студентов.

«В связи с этим возникают опасения относительно мошенничества при сдаче экзаменов, но здесь есть более серьёзный вопрос», — говорит Хёрш. — Откуда нам знать, что наши студенты на самом деле учатся и усваивают знания и навыки, необходимые им для профессиональной деятельности в будущем?»

Будучи профессором медицинской информатики и клинической эпидемиологии при медицинской школе Орегонского университета наук о здоровье, Хёрш особенно чутко относится к новым технологиям. «Роль технологии в образовании не является чем-то новым», — говорит Хёрш, вспоминая собственный школьный опыт в 1970-е годы, когда происходил переход от логарифмических линеек к калькуляторам.

И всё-таки, переход к генеративному ИИ — это экспоненциальный рывок вперёд.

«Очевидно, что каждый должен обладать некими фундаментальными знаниями в своей области», — говорит Хёрш. — Обладания какими фундаментальными знаниями вы ожидаете от людей, чтобы они мыслили критически?»

Большие языковые модели

Хёрш и его соавтор Кейт Фулц Холлис, специалист по информатике, использовали результаты оценки 139 студентов, прошедших вводный курс по биомедицинской информатике в 2023 году. Они обучили шесть генеративных больших языковых моделей ИИ на материале для оценки студентов из этого курса. В зависимости от модели, ИИ оказался в верхних процентилях, от 50 до 75, по вопросам с многовариантными ответами в контрольных опросниках и в итоговом экзамене, где требовалось давать краткие письменные ответы на вопросы.

«Результаты этого исследования поднимают серьёзные вопросы о будущем оценки студентов по большинству, если не по всем академическим дисциплинам», — пишут авторы.

Это первое исследование, где большие языковые модели сравнивались со студентами по всему академическому курсу в области биомедицины. Хёрш и Фулц Холлис отметили, что может быть такие, основанные на базах знаний, курсы созрели для генеративных больших языковых моделей, в противоположность более коллективно-ориентированным курсам, помогающим развивать более сложные навыки и способности.

Хёрш вспоминает свой опыт в медицинской школе.

«Когда я был студентом-медиком, один из моих врачей-ординаторов сказал мне, что все знания должны быть у меня в голове», — говорит он. «Даже в 1980-е годы это было нелегко. Медицинская база знаний давно прошла тот рубеж, когда человеческий мозг в состоянии запомнить всё это».

Сохранение человеческого фактора

И всё же он считает, что существует тонкая грань между разумным использованием технических ресурсов для развития образования и чрезмерной зависимостью от них, вплоть до того, что они препятствуют обучению. В конечном итоге, цель существования академических центров вроде Орегонского университета наук о здоровье — давать образование профессиональным медикам, способным заботиться о пациентах и оптимизировать использование данных и информации о них в условиях объективной действительности.

«В этом смысле, — говорит он, — медицине всегда будет необходим человеческий фактор».

«Масса вещей, которыми занимаются профессиональные медики, довольно однозначны, но существуют такие случаи, когда всё усложняется, и необходимо действовать по своему усмотрению», — говорит он. — Вот когда помогает наличие более широкого кругозора, при этом необязательно держать в голове все факты до единого».

Скоро начинаются осенние занятия и Хёрш говорит, что его не беспокоят шпаргалки.

«Каждый год я обновляют свой курс», — говорит он. — В любой области науки всё время достигаются новые успехи, и большие языковые модели не обязательно поспевают за ними всеми. Это всего-навсего означает, что нам нужно будет подумать над новыми, более тонкими тестами, где невозможно будет получить ответ от ChatGPT».

Автор — Erik Robinson.

Перевод — Андрей Прокипчук, «XX2 ВЕК». Источники.

Материалы предоставлены Орегонским университетом наук о здоровье (Oregon Health & Science University).

Вам также может быть интересно: