Найти тему
DigEd

Перестаньте судить об ИИ с помощью человеческих экзаменов

Jeremy Roschelle
Jeremy Roschelle

Автор Джереми Рошелль

Около 25 лет назад я сидел рядом с маляром из Сиэтла во время перелета из одного побережья в другое. Он был болтлив, особенно о физике — он был ученым-любителем и с гордостью делился всем, что открыл, в энциклопедиях. В то время я изучал, как люди изучают физику. Мне очень понравился разговор на высоте, потому что маляр был увлечен физикой. И его знание было странным образом около мили в ширину, но всего в дюйм в глубину. Из чтения и перекрёстных ссылок в энциклопедиях он многое понял, но у него всё ещё оставалось много вопросов и пробелов в знаниях — вполне объяснимых, учитывая поверхностный, но сильно перекрёстный учебный материал. Несмотря на то, что он был страстным, умным и обаятельным, маляра из Сиэтла никто бы не принял за университетского физика.

В эти дни я замечаю частый тип заголовка:

  • ChatGPT может пройти любой школьный тест.
  • ChatGPT лучше сдает университетские экзамены.
  • ChatGPT побеждает студентов на тестах в юридической школе.

Я считаю, что люди в восторге от этих заголовков, потому что они считают, что прохождение теста показывает, что ИИ умен. Или, возможно, этот ИИ так же компетентен, как школьник, студент университета или студент юридического факультета. Но это ошибочное рассуждение. Чтобы объяснить почему, я предлагаю краткий обзор пары понятий, важных для человеческих экзаменов, различения и достоверности.

Тесты на людях разрабатываются с использованием психометрии, чаще всего теории ответной реакции (IRT). При использовании IRT разработчики тестов создают большие банки экзаменационных заданий; затем разработчики экзамена просят выборку студентов-людей попробовать тестовые задания-кандидаты. Основываясь на эмпирических результатах тестирования предметов с группами людей, IRT эмпирически измеряет, насколько хорошо каждый элемент различает людей, которые демонстрируют более низкие или более высокие способности по предмету экзамена. Предметы, которые не различают, выбрасываются; элементы, которые хорошо работают, сохраняются. Таким образом, валидность экзамена как меры человеческих способностей калибруется эмпирически.

Вот важный момент: IRT не дает никаких гарантий, что эта валидность верна для испытуемых, не являющихся людьми, таких как испытуемые, которые являются алгоритмами ИИ или пришельцами с другой планеты. Поскольку модели ИИ отвечают на тестовые задания людей иначе, чем люди, сдающие тесты, мы не можем предполагать, что высокий результат теста означает более умную модель ИИ. Модель IRT никогда не получала данных, необходимых для надежного различения умных и неглубоких моделей ИИ.

Во-вторых, все тесты стремятся использовать очень ограниченный тип и количество элементов, чтобы сделать вывод от частного к общему. Вывод делается на основе конкретных элементов теста и сил человека в более широком спектре естественных задач в общей области знаний, навыков и способностей. Чтобы подтвердить эти выводы для людей, специалисты по психометрии применяют набор методов, устанавливающих достоверность. Они также проходят эмпирическую калибровку среди людей, например, путем сравнения результатов нового теста с другими показателями эффективности. Если новый тест и другие показатели коррелируют, вывод от частного к общему более верен. Опять же, нет никакой гарантии, что для испытуемых, не являющихся людьми, вывод из определенного набора элементов (юридический тест) в область знаний, навыков и способностей (успешный студент-юрист) оправдан.

Теперь давайте подумаем, как это выглядит для алгоритмов ИИ. Во-первых, кажется довольно очевидным, что прохождение этих тестов мало поможет отличить худшие алгоритмы от лучших. В тестах используется довольно узкий набор форматов задач, и под эти форматы легко выполнить чрезмерную оптимизацию. Откровенно говоря, я больше впечатлен эффективностью ChatGPT при плохо структурированных взаимодействиях чат-ботов с людьми, чем его способностью пройти стандартизированный тест. Не зря их называют стандартизированными тестами; они очень четко определены и предсказуемы по структуре и содержанию. С чего бы кому-то верить, что алгоритм или модель ИИ, которая хорошо работает в стандартизированных тестах, является более мощной или лучшей моделью, чем та, которая может справиться с широким спектром сложных, но нестандартных задач?

А что касается вывода конкретного теста об общих знаниях, который я назвал проблемой валидности, кажется, что ИИ больше похож на маляра из Сиэтла, чем мы хотим признать. Он прекрасно разбирался в физике, но никто бы не принял его за университетского физика. Мой наставник в аспирантуре Энди ДиСесса описывал экспертные знания в области физики как имеющие очень точную структуру; настоящие эксперты могут проследить связи от более поверхностных ответов до основополагающих принципов. У них есть очень хорошо организованная топология очень большого количества знаний, и их принципы, которые организуют природу и типы связей в их базе знаний, отражают эпистемологию физики. Они позволяют эксперту подтвердить, что конкретное применение физики хорошо основано на основополагающих принципах, и дать эксперту все более и более глубокие объяснения. Вот где маляр из Сиэтла быстро ошибся.

Современные большие языковые модели имеют другую эпистемологию, основанную на последовательной связности частот слов в предложениях. Я понятия не имею, как мы переходим от последовательной частоты слов (горизонтальная топология) к прикладно-аксиоматической структуре, которая характеризует компетентность (вертикальная топология). Но я уверен, что мы еще не там. И, таким образом, прохождение теста, преддназначенного для людей, не является достоверным признаком того, что модель или алгоритм ИИ развивает знания, подобные знаниям человека-эксперта. Сегодняшний генеративный ИИ больше похож на маляра из Сиэтла, чем мы готовы признать, а новости о том, что модели ИИ проходят тесты, оказывают медвежью услугу, упрощая природу экспертизы в предметной области.

Мои рекомендации:

  1. Ученые-компьютерщики должны взять на себя инициативу в информировании людей о том, что человеческие экзамены — не лучший способ измерить сильные стороны алгоритмов или моделей ИИ.
  2. Ученые-компьютерщики также должны взять на себя инициативу в информировании людей о том, что сравнение ИИ с людьми посредством рейтинга результатов на человеческих экзаменах является ошибочным сравнением.
  3. Наконец, такие ученые, как я, должны играть ведущую роль, помогая людям думать о том, как улучшить оценку человека теперь, когда у нас есть более мощные машины. Старые тесты не священные коровы; они были просто лучшими доступными заменителями общих знаний, навыков и способностей человека в предметной области. Хотя преподаватели используют устоявшиеся форматы экзаменов, наука о построении оценок человеческих навыков значительно продвинулась за последние десятилетия, и мы готовы помочь педагогам в создании новых экзаменов для измерения способностей людей, когда они работают с мощными инструменты для решения сложных задач.

Джереми Рошель — исполнительный директор по исследованиям в области обучающих наук в Digital Promise и член Международного общества обучающих наук.

Источник