О том, как поведение в онлайн-среде связано с уровнем знаний и как математика помогает разрабатывать грамотные тесты.
А вы знаете, что такое психометрика? Вот и мы представляли себе эту дисциплину крайне смутно — до того, как Дмитрий Аббакумов, эксперт-психометрик, рассказал нам, как и зачем измеряют уровень знаний.
А ты хорошо себя вёл в онлайне?
Мир всё дальше и дальше идёт в сторону цифровизации и автоматизации. Это характерно и для сферы онлайн-обучения, в том числе — оценивания успеваемости студента. В ближайшем будущем мы сможем оценивать студента не только по тестам, но и по совокупности поведения в онлайн-среде: как он смотрел лекции, пересматривал ли их, сколько попыток затратил на выполнение заданий, как общался на форуме — это всё нам говорит об учащемся гораздо больше, чем тест, состоящий из 15 заданий.
Как мне кажется, это весьма гуманистический подход к обучению: по той информации, что есть у нас, мы и оцениваем, и пытаемся помочь. Так, если мы видим, что студент совершил ошибки здесь и здесь, то высока вероятность, что и следующее задание он тоже завалит. Соответственно, мы сможем обеспечить его персональными подсказками.
Очевидно, что в ближайшее время любой тест будет проводиться при помощи компьютера. То, что это пока ещё невозможно, обусловлено лишь отсутствием тотальной компьютеризации. Уже сегодня до 60% магистерского образования США использует онлайн-образование, а топовые университеты тестируют полностью онлайновые магистерские программы. Значит ли это, что компьютер займёт место живого преподавателя? Едва ли. Человек — источник творчества: живую беседу, глаза в глаза, никакая программа не сможет сымитировать. Поэтому нельзя сказать, что технологии заменят человека — скорее, помогут наладить более эффективное взаимодействие, всё больше сокращая расстояние между людьми.
В новой реальности очень остро встают вопросы доверия к онлайн-образованию, контроля и повышения его качества. И в решении этих задач нам на помощь приходит психометрика — научное направление, которое фокусируется на высокоточных измерениях, анализе данных и математическом моделировании педагогических и психологических процессов онлайн-обучения. С 2016 года в Высшей школе экономики действует Центр психометрических исследований в онлайн-образовании, который я возглавляю. Среди задач аналитиков центра — оценка качества тестов, трудности и интересности контента, трекинг подготовленности студентов и многое-многое другое.
Как я стал психометриком
Я учился в лицее-интернате для одарённых детей: это такое место, где дети живут отдельно от родителей и только и делают, что занимаются. После лицея я поступил в университет на первый курс. Тогда в моём вузе начинали внедрять оценку знаний по компьютерным тестам, и я их напрочь завалил, и потому попал в приказ на отчисление. И ректор, весьма мудрый человек, поинтересовался: а как остальные лицеисты справились с заданием? И выяснилось, что под угрозой отчисления оказался не только я, но и другие выпускники лицея.
Стало понятно, что дело не в студентах, а в тестах. Поэтому ректор пригласил специалистов из МГУ, чтобы они научили преподавателей моего университета правильно составлять задания. И пока я проводил для них экскурсию, один из профессоров спросил, как я отношусь к системе компьютерного тестирования. Я честно ответил, что бездушная машина не способна оценить уровень знаний — это под силу лишь человеку. И тогда он пригласил меня в Москву, чтобы я смог побывать в лаборатории, в которой создаются «правильные» тесты. Эта поездка действительно изменила моё представление — и определила мою дальнейшую профессиональную судьбу.
Можно ли измерить знание?
Психометрика, по сути, состоит из двух блоков: прежде всего, из разработки самих заданий и определения того, как правильно задавать вопросы, чтобы они измеряли разные аспекты знаний — запоминание, понимание, применение.
Другой аспект психометрики — это математический аппарат. Мы не можем вскрыть человеку черепную коробку и посмотреть, сколько знаний у него хранится в голове, потому что знания, к какой бы области они ни относились, — это латентная характеристика, скрытая от наблюдений. Поэтому мы создаём задачи, которые и являются индикаторами этого знания: его уровень демонстрируется посредством того, как человек справился с заданием — как минимум, верно или неверно.
Все ли тесты испытывают влияние психометрики? Хотелось бы, чтобы так оно и было. Однако если мы говорим о тестах в глянцевых журналах, едва ли можно вести речь о валидности измерения.
Чуть-чуть истории и немного магии
Психометрика родилась более века назад, в физической лаборатории Кавендиша в Кембриджском университете Великобритании. Конечно, появилась не по воле случая: к тому моменту учёные уже задумывались над тем, как математический аппарат может помочь в измерении чего-то «бесплотного» вроде знания.
Первые психометрические измерения были довольно примитивными: допустим, студент решил 20 заданий из 22, следовательно, делали вывод, что его знания находятся на хорошем уровне. А другой решил 15 заданий — соответственно, знаний у него меньше. Однако что если второй учащийся справился с меньшим количеством заданий, но зато они были более сложными? Стало очевидно, что подобная система измерений неточна. Потому-то ближе к 50-м годам XX века психометрику настиг первый кризис: можно ли измерить уровень знания так, чтобы он не зависел от сложности теста?
И вот этот экзистенциальный для психометрики вопрос привёл к почти магической истории: в одно и то же время, в двух разных странах, появляются две одинаковые психометрические модели. Датчанин Г. Раш и американец Ф. Лорд предложили рассматривать вероятность ответа на задание как разность двух параметров — уровня трудности задания и уровня подготовленности студента, что позволяло оценивать уровень знания независимо от сложности теста.
Несмотря на такую оптимальную модель, всё же нельзя поспорить с тем, что лучше всего оценивает знания эксперт, сидящий напротив, который видит студента, понимает, что тот волнуется, пытается его подбодрить, а иногда, напротив, «встряхнуть». Стандартом здесь можно считать то, как сдаётся говорение на IELTS: преподаватель подстраивается под уровень каждого экзаменуемого. Если вы, условно, пока можете только в «my name is…», экзаменатор не будет вас мучить экономическими терминами.
Кажется, экспертная модель идеальна — но и тут не обойтись без подводных камней: мы не можем обеспечить каждого студента оценщиком с одинаковым уровнем объективности. Есть, например, такое явление, как гало-эффект: скажем, я преподаю в вузе, и ко мне приходит сдавать экзамен девочка Маша. На вопросы отвечает плохо, но я помню о том, что она ходила на все занятия и выполняла домашнюю работу, и я ставлю ей «5». А другая девочка, Лена, училась неважно, занятия прогуливала, но экзамен сдаёт блестяще, — а я, помня о том, с какой периодичностью она посещала мой предмет, ставлю «3».
В тестировании же мы отказываемся от экспертного оценивания в пользу равного отношения ко всем. Да, у нас есть та самая бездушная машина, но зато она бездушна ко всем. Если же мою работу проверяют эксперты, то моя оценка — это вероятность не только моего уровня знаний и сложности заданий, но ещё и строгости эксперта, который меня проверяет. Мы проводили исследование, которое показало, что за одну и ту же работу, выполненную студентами с одинаковым уровнем подготовленности, оценки экспертов варьировались от «удовлетворительно» до «отлично».
Потому-то задача современной психометрики — приблизиться к экспертной, но объективной модели оценивания. 100 лет назад мы отказались от экспертности в пользу бланковых тестов, теперь же, при помощи математики, статистики, машинного обучения пытаемся к ней вернуться.
Как это работает?
Чтобы оценить уровень знаний онлайн-студента, целый отдел наших специалистов учит преподавателей создавать задания правильно. Затем, когда задания созданы, мы начинаем отбраковывать негодные. Например, такие, в которых нет единственно верного ответа. Важна не только сама суть задачи, но и её формальное воплощение. «Как вы думаете, сколько будет дважды два?» — такой вопрос не верен, потому что в нём мы априори исключаем единственно верный ответ. Учащийся может ответить: «я думаю, пять», и засчитать это «я думаю» как неправильное мы, по логике, не можем.
После того, как отобранные задания загружаются на платформу и ещё раз калибруются, происходит анализ полученных от платформы данных: сколько попыток совершил студент, какова была их результативность, сколько времени прошло между двумя попытками, пользовался ли он в этот период какими-либо дополнительными материалами (например, пересматривал ли лекции).
Анализируя эти поведенческие особенности, мы делаем выводы не только об уровне знаний учащихся, но и о том, от каких заданий в дальнейшем нам следует отказаться.
В топе таких проблемных задач — задания с несколькими вариантами ответа и задания с открытым ответом. Первый тип плох тем, что, если мы не напишем в комментарии, что необходимо выбрать несколько пунктов, студент с большей долей вероятности ошибётся, остановившись на одном ответе. Второй тип сложен потому, что при записи ответа словом всегда есть риск ошибиться орфографически, особенно в падежной форме.
Иногда ошибки обеспечены тем, что преподаватели не совсем понятно объясняют некоторые темы: это можно заметить по тому, как студенты начинают гадать при выборе ответа. Если гадает несколько студентов, это ещё можно списать на случайность, но если гадает весь поток, очевидно, что проблема в задаче. Тогда мы идём к преподавателю и начинаем вместе разбираться, почему задание некорректно.
А что у нас?
К сожалению, российской школы психометрики пока не существует. Точнее, так: она была в Советском Союзе — носила название педология, и при этом развивалась крайне активно. Но только до того момента, пока в 1936 году её не запретили наряду с генетикой и кибернетикой, выпустив постановление «О педологических извращениях в системе Наркомпросов». Лишь в 70-х годах появились робкие попытки возродить некогда запрещённые идеи, но ведь за это время флагманы психометрики — Нидерланды, Бельгия, США, Великобритания, — усердно работая, добились огромных результатов.
Поэтому к началу нашего века мы пришли с тем, что, в то время как в мире существует множество магистерских программ, и тесты разрабатываются правильно, у нас вот уже который год сдаётся ЕГЭ, а психометрики при этом нет: первая российская магистерская программа по этой дисциплине появилась только 8 лет назад...
Мировая психометрика сегодня — это часть вычислительной науки о поведении (computational behavioral science). Современные психометрические решения находятся на пересечении науки о данных, машинного обучения и теоретической психометрики и фокусируются на моделировании и объяснении поведения человека в реальном времени на основе многообразия его цифровых следов. Мы в «Вышке» стараемся не отставать и разрабатываем свои решения. Одно из таких решений, модель для углубленного анализа попыток студентов, я представил в июне на главном ежегодном научном психометрическом событии — конференции The International Meeting of the Psychometric Society, проходившей в Колумбийском университете в Нью-Йорке. Это первый случай за всю историю Психометрического общества, когда на этой конференции свои исследования представлял психометрик из российского университета, и я считаю это хорошим знаком.
Материал отсюда.