Ожидаемая революция в оценивании наталкивается на практические препятствия
Автор Честер Э. Финн-младший.
В заставляющей задуматься статье в отчете Hechinger Report пару недель назад директор IES Марк Шнайдер и босс Schmidt Futures Кумар Гарг привели убедительные доводы в пользу революции в образовательном тестировании.
Авторы правильно объяснили, что сегодняшние оценки практически никому не нравятся, они дорогие, и многие хотели бы их вообще отменить. Затем они объяснили, почему отмена тестирования была бы действительно плохой идеей, поскольку это лишило бы ценной информации как преподавателей, так и политиков и отказалась бы от основного инструмента достижения справедливости.
Вместо того, чтобы выступать против тестирования, говорят Шнайдер и Гарг, нам нужен эквивалент «SpaceX» для оценки - переосмысление, перепроектирование и реконструкция того, как это можно и нужно делать в середине двадцать первого века.
Они правы - правы в том, что это должно произойти, и в том, что «улучшения доступны уже сейчас». В частности, набор технологий, которые уже широко используются в некоторых тестах в частном секторе, может и должен быть охвачен государственными и национальными оценками, а также частными тестами, которые еще не используют их в максимальной степени. Искусственный интеллект может генерировать тестовые вопросы и оценивать ответы студентов. «Обработка естественного языка» иллюстрирует тот вид, который может оценивать ответы в стиле эссе, тем самым помогая освободить тестирование от элементов с множественным выбором, которые могут быть пропущены через сканер. Компьютерное адаптивное тестирование (уже являющееся особенностью коалиции Smarter-Balanced, хотя и ограничено настойчивым требованием ESSA о тестировании на уровне класса) экономит время, снижает разочарование учащихся и дает гораздо больше информации о том, что дети делают и чего не знают. особенно на высоких и низких концах распределения достижений.
Шнайдер и Гарг перечисляют несколько необходимых элементов смены парадигмы, к которой они стремятся:
Во-первых, мы должны стремиться установить амбициозные цели в отношении того, куда могут пойти инновации в оценке…. Во-вторых, правительственные агентства и спонсоры исследований должны вкладывать средства в передовые вычислительные методы оперативной оценки…. В-третьих, очень важно развивать таланты. Новый дизайн тестирования потребует новых исследователей, разработчиков, статистиков и экспертов по ИИ, которые мыслят нестандартно…. Но, самое главное, мы должны признать, что статус-кво нарушен. Нам нужно новое мышление, новые методы и новые таланты.
Конечно, это еще не все. Есть много других потребностей, в основном связанных с преодолением нынешних препятствий. Государственная бюрократия устроена по-своему. Системы закупок закостенелые и шаблонные. Цифровые разрывы реальны. И чем больше в тестах используются технологии, тем выше риск того, что эти разногласия усугубят неравенство, которое выявляют тесты.
Более того, задействованы всевозможные государственные и федеральные законы и постановления. Пересечение оценок с академическими стандартами и режимами подотчетности ESSA действительно сложно. И затем есть вопрос о «линиях тренда», желании узнать, насколько результаты оценки в следующем году сопоставимы с результатами прошлого года, чтобы мы могли рассчитывать рост, управлять нашей системой подотчетности, знать, закрываются ли пробелы и работают ли реформы и т.д.
Это нетривиальные соображения, особенно в долгосрочных программах тестирования, таких как Национальная оценка успеваемости. Большие изменения в том, как создаются и проводятся тесты, наверняка столкнутся с барьерами, указанными выше, но также сопряжены с высоким риском вынудить трендовые направления начать заново.
Шнайдер и Гарг считают, что эти проблемы стоит решать. То, что это уже время перемен, и беспокойство в области тестирования вполне может означать, что они правы и время пришло.
С другой стороны, как сказал бывший управитель Achieve Майкл Коэн, возможно, сейчас неподходящее время «для серьезных усилий по созданию лучших тестов, потому что никто не хочет говорить о тестах». Люди устали от стандартов, тестов и отчетности. Они просто не хотят больше с этим иметь дело».
Конечно, будет нелегко достичь чего-то похожего на консенсус в сфере образования, не в эти политически раскольнические времена, когда люди хотят от тестов так много разных вещей и хотят использовать и ограничивать их множеством разных способов - или полностью их отменить. .
Сегодня наблюдается разногласие среди двадцати шести членов Национального управляющего совета по оценке (NAGB), которые борются с заменой двенадцатилетней концепции, лежащей в основе тестов чтения NAEP. Предполагаемая, что она вступит в силу с циклом оценки 2026 года, предлагаемая новая структура, возникшая в результате обширной попытки «видения» будущего чтения, вызвала много споров. В резком обзоре прошлогоднего черновика Дэвид Штайнер из Джона Хопкинса и Марк Бауэрлейн из Эмори предположили, что новая концепция, по сути, будет определять отклонения, маскируя проблему слабых базовых знаний, которые ставят под угрозу понимание прочитанного среди многих молодых людей, особенно тех, кто из неблагополучных домов. Они также подчеркнули большой риск того, что предлагаемая новая структура нарушит линию тренда чтения NAEP, которая тянется начиная с 1992 года.
Являются ли изменения, внесенные впоследствии в предлагаемую структуру, существенными или косметическими, остается предметом интенсивных дискуссий в совете управляющих, который на протяжении десятилетий славился своей способностью достигать консенсуса по важным решениям. Сможет ли это произойти в следующем месяце, когда NAGB должен принять новую структуру чтения, еще предстоит увидеть.
Однако дело здесь не в NAEP или NAGB. Речь идет о сложности достижения консенсуса в сегодняшних аргументах тестирования - и о сложной проблеме линии тренда, которая имеет большое значение не только для NAEP, но и для многих государственных оценок, а также усилий частного сектора по тестированию, таких как SAT, ACT и NWEA.
Статистический и психометрический анализ иногда позволяет «связать» или «уравнять» баллы в связи с серьезным изменением методов тестирования, содержания или механизмов подсчета баллов. Вот как, например, линия тренда чтения NAEP пережила установку нового оценивания в 2009 году, и как Совет колледжей смог публиковать таблицы эквивалентности каждый раз, когда он «повторно центрировал» SAT.
Возможно, такие мосты смогут преодолеть пропасть между сегодняшними системами тестирования и версией SpaceX, которую представляют Шнайдер и Гарг. Или, возможно, мы должны научиться жертвовать данными о тенденциях в погоне за другими преимуществами, которые принесет версия SpaceX. Это серьезный вызов - и проблема, которая еще больше усложнит поиск консенсуса, особенно в государственных оценках, таких как те, которые, по утверждениям, требуется проводить ESSA, а также самому NAEP.
Революция в тестировании менее чревата - по крайней мере, менее политизирована - в частных программах, особенно тех, которые чаще используются для формирующих и диагностических целей, а не связаны с подотчетностью школы. Переосмысление этих тестов и их использования может принести дополнительные выгоды. Если бы большее количество школ использовали их регулярно и безболезненно, а затем использовали бы их как для принятия решений учителями, так и для того, чтобы держать родителей в курсе достижений и недостатков обучения своих детей, возможно, не было бы необходимости и давления в тестировании подотчетности в конце года. Возможно, это могло бы происходить реже или, в стиле NAEP, вовлекать только выборку учащихся и школ.
Да, пришло время подумать по-новому! Ты слышишь, Илон Маск?
Честер Е. Финн-младший - заслуженный старший научный сотрудник и почетный президент Института Томаса Б. Фордхэма. Он также является старшим научным сотрудником Стэнфордского института Гувера.