Найти в Дзене
DigEd

«Если компании, занимающиеся тестированием, используют ИИ для выставления оценок, почему мы не можем?»

Автор: Ник Поткалицки На недавнем семинаре по повышению квалификации я наблюдал, как разговор об ИИ и оценивании работ перерос в путаницу. Некоторые учителя были убеждены, что стандартизированные тесты в Огайо используют ИИ для оценки письменных работ учащихся, хотя никто не мог сказать, какой именно. Другой педагог рассказал, что их округ обучает популярный инструмент ИИ на образцах работ прошлых учеников, чтобы помочь учителям быстрее выставлять оценки. Под всем этим скрывалась невысказанная тревога: не передаем ли мы оценку письменных работ учащихся машинам? Меня поразило не столько беспокойство, хотя оно и было разумным. Меня поразило то, что мы все использовали термин «ИИ» в совершенно разных значениях. Никто не мог сформулировать, что на самом деле происходит, когда компьютер «оценивает» письменные работы учащихся. Поэтому я решил это выяснить. Да, в Огайо для оценки письменных работ на стандартизированных тестах используется ИИ. Но это не ChatGPT и не то, что большинство людей с
Оглавление

Понимание технологии, лежащей в основе автоматизированной оценки эссе

Автор: Ник Поткалицки

Разговор, который послужил поводом для этого исследования

На недавнем семинаре по повышению квалификации я наблюдал, как разговор об ИИ и оценивании работ перерос в путаницу. Некоторые учителя были убеждены, что стандартизированные тесты в Огайо используют ИИ для оценки письменных работ учащихся, хотя никто не мог сказать, какой именно. Другой педагог рассказал, что их округ обучает популярный инструмент ИИ на образцах работ прошлых учеников, чтобы помочь учителям быстрее выставлять оценки. Под всем этим скрывалась невысказанная тревога: не передаем ли мы оценку письменных работ учащихся машинам?

Меня поразило не столько беспокойство, хотя оно и было разумным. Меня поразило то, что мы все использовали термин «ИИ» в совершенно разных значениях. Никто не мог сформулировать, что на самом деле происходит, когда компьютер «оценивает» письменные работы учащихся.

Поэтому я решил это выяснить.

Реальность в Огайо: это не то, что вы думаете

Да, в Огайо для оценки письменных работ на стандартизированных тестах используется ИИ. Но это не ChatGPT и не то, что большинство людей себе представляют.

Согласно документации Департамента образования Огайо (обновленной в январе 2026 года), штат использует гибридную систему «человек-ИИ». Педагоги Огайо сначала просматривают ответы учащихся и выбирают примеры, представляющие весь диапазон оценок. Затем Data Recognition Corporation (DRC) обучает экспертов-оценщиков, используя подробные критерии.

Вот ключевой момент: 2500 случайно выбранных ответов оцениваются вручную во второй раз, и каждое расхождение устраняется третьим экспертом-оценщиком. Только после этой тщательной проверки вступает в действие ИИ, обучаясь на основе этих тщательно проверенных оценок.

Компонент ИИ, Autoscore от Cambium Assessment, использует «сочетание разработанных экспертами функций для оценки качества письма и латентно-семантического анализа (LSA) для оценки концепций в эссе». LSA появилась еще в 1990-х годах. Это не тот новый, блестящий ИИ, о котором все говорят.

Даже во время оперативного тестирования первые 500 ответов оцениваются как машинным, так и ручным способом для проверки точности, а 25 процентов всех ответов перепроверяются людьми на протяжении всего периода тестирования.

Различие, которое меняет всё

Вот чего не хватало на нашем семинаре: не все ИИ делают одно и то же.

В Огайо используется дискриминативный ИИ. Его задача — классифицировать и оценивать существующий текст. Вы даёте ему эссе, он возвращает число: 1, 2, 3 или 4 балла.

ИИ, который беспокоит учителей, например, такие инструменты, как ChatGPT, — это генеративный ИИ. Его задача — создавать новый текст. Вы даёте ему задание, он пишет эссе.

Подумайте об этом так: система Огайо — это эксперт по пониманию прочитанного, который анализирует письменные работы учащихся. ChatGPT — это писатель, который создаёт контент. Одно и то же семейство ИИ, совершенно разные задачи. Это различие имеет огромное значение для оценивания работ учащихся.

Эксперимент с генеративным ИИ: не готов к широкому применению

Исследователи проверяют, могут ли ChatGPT и GPT-4 оценивать эссе. Эти исследования распространяются в образовательных сетях и иногда ошибочно интерпретируются как описание уже используемых систем. Но это эксперименты, а не действующие программы. И результаты вызывают тревогу.

Проблема с промптами

Исследование Гарвардского университета показало, что простое изменение способа оценивания ChatGPT меняет оценки. При задании оценивать «как учитель начальной школы» коэффициент корреляции R² с оценками человека составил 0,42. При задании оценивать «как профессор колледжа» коэффициент корреляции упал до 0,38. Те же эссе, разные оценки — просто из-за изменения формулировки инструкции.

Проблема с согласованностью

Исследование 2025 года, опубликованное в журнале Education, показало, что производительность GPT-4 снижается по мере обновления модели. «Точность GPT-4 в определении простых чисел снизилась с 84% в марте 2023 года до 51% в июне 2023 года». Если система не может последовательно определять простые числа, стоит ли доверять ей тонкую оценку письменных работ?

Проблема изменчивости

Разные исследования приходят к противоположным выводам о том, оценивает ли генеративный ИИ работы слишком строго или слишком мягко. Исследование 2024 года в области стоматологического образования пришло к выводу, что, хотя ChatGPT показала многообещающие результаты, «для оптимальной надежности необходима соответствующая разработка критериев оценки». Иногда это работает, если правильно настроить систему, но мы не уверены, когда и почему.

Вопрос предвзятости: дело в обучающих данных

Кто-то на нашем семинаре упомянул, что слышал, будто ИИ оценивает одно и то же эссе по-разному в зависимости от того, написано ли оно носителем английского языка или изучающим английский. В реальности все обстоит более системно.

Исследование, проведенное в январе 2025 года, показало, что «современные регрессионные модели на основе трансформеров, обученные в основном на корпусах, написанных носителями языка, часто выявляют ложные корреляции между поверхностными лингвистическими особенностями второго языка и качеством эссе». Эссе изучающих английский язык на высоком уровне получили оценки на 10,3% ниже, чем эссе носителей языка, которые эксперты-люди оценили как идентичные по качеству.

ИИ не проявляет дискриминации, потому что он «знает», что студент изучает английский язык. Как объясняют исследователи, «головки внимания трансформеров часто непропорционально обращают внимание на отличительные маркеры второго языка, такие как неправильное использование предлогов или определенные структуры предложений, в качестве индикаторов для прогнозирования более низких оценок, игнорируя семантический вектор».

Искусственный интеллект научился распознавать определенные грамматические модели, указывающие на плохое качество письма, хотя на самом деле эти модели означают лишь «письмо, написанное человеком, для которого английский не является родным языком».

Хорошие новости? Исследование, проведенное в мае 2025 года, показало, что «при достаточно большом объеме обучающего набора данных (ELL≈30 000 и ELL≈1000) не было обнаружено предвзятости ИИ и искаженных различий между учащимися, изучающими английский как второй язык, и учащимися, не изучающими его, но могут возникнуть опасения, если размер выборки будет ограничен (ELL≈200)».

Решение простое: обучить ИИ на разнообразных данных. Это означает, что округа, экспериментирующие с инструментами ИИ, должны задать себе вопросы: на чем проводилось обучение? Кто представлен? Кто не представлен?

Реальность в округе: где контроль наиболее слаб

История учителя о том, как в его округе обучали инструмент ИИ на основе работ прошлых учеников? Вот где происходят настоящие события, и где контроль наиболее слаб.

В отличие от тщательно проверенной, публично документированной системы Огайо, местные эксперименты часто имеют:

  • Отсутствие стандартизированной проверки
  • Отсутствие прозрачности в отношении обучающих данных
  • Отсутствие формального тестирования на предвзятость
  • Отсутствие внешней подотчетности

Традиционная система ИИ в Огайо имеет обширный человеческий контроль и множество контрольных точек проверки. Эксперименты с генеративным ИИ в округах часто не имеют ни одной из этих гарантий.

Что должны знать учителя

Спросите, какой именно тип ИИ используется

Когда кто-то говорит: «ИИ оценивает работы», спросите: дискриминативный (классификация) или генеративный (создание текста)? Они работают по-разному и несут разные риски.

Требуйте прозрачности

Если ваш округ использует ИИ для оценивания работ, спросите:

  • Какую конкретную систему?
  • На чём она обучалась?
  • Какая проверка была проведена?
  • Что происходит, когда она ошибается?

Защитите учащихся, изучающих английский язык как второй

Если оценки ИИ работают для учащихся, изучающих английский язык как второй, спросите:

  • Какой процент обучающих данных получен от учащихся, изучающих английский язык как второй?
  • Какое тестирование проводилось на предмет предвзятости?

Если на эти вопросы нельзя ответить, система не готова.

Разговор, который нам следует вести

В ходе семинара наши опасения были оправданы. Мы задавали неправильные вопросы.

Не: «Использует ли Огайо ИИ?» (Да, уже много лет)

А: «Какой именно ИИ, с какими мерами безопасности, был проверен?»

Не: «Следует ли нам использовать ИИ для выставления оценок?» (Мы уже используем)

А: «Каким ученикам этот ИИ приносит пользу, а каким вредит?»

Технология никуда не денется. Наша обязанность — понимать её достаточно хорошо, чтобы защитить учеников, которые с ней сталкиваются. Это означает конкретизацию того, что мы подразумеваем под «ИИ», требование прозрачности и бдительность в отношении того, кто страдает, когда технология совершает ошибки.

Потому что она будет совершать ошибки. Вопрос в том, заметим ли мы это и будем ли мы достаточно обеспокоены, чтобы что-то с этим сделать.

Источник