Найти тему
DigEd

Покончить с предвзятостью дня рождения

Оглавление

Возрастные надбавки в тестах с высокими ставками являются проверенным стимулом для справедливости.

Автор Пабло А. Пенья

Старшие школьники обычно лучше справляются с тестами академической успеваемости, чем младшие школьники в тех же классах. Снова и снова исследования, посвященные целому ряду стран, классов и предметов, обнаруживают, что разница в возрасте даже в несколько месяцев имеет значение.

Рассмотрим этот пример того, как возраст влияет на успеваемость. Я смотрю на результаты стандартного теста по математике в Мексике для учащихся 3–9 классов и группирую результаты по месяцу рождения учащихся (см. рис. 1). В каждом классе самые старшие ученики, родившиеся в январе, показывают лучшие результаты, чем их самые младшие одноклассники, родившиеся на 11 месяцев позже, в декабре. Эти возрастные различия означают, что в местах с академическим отслеживанием учащиеся, которые старше своего класса, с большей вероятностью попадут в более требовательные и более академически ориентированные программы. В комплексных системах учащиеся относительно старшего возраста с большей вероятностью будут посещать более отборные учебные заведения, чем учащиеся младшего возраста, особенно в неблагополучных группах.

Относительный возраст вносит произвольную предвзятость в пользу учащихся старшего возраста. И хотя штаты и школьная система в Соединенных Штатах по большей части игнорировали эту проблему, родители постоянно вмешиваются, пытаясь исправить это предубеждение посредством «академической красной рубашки*(redshirting)» или намеренно откладывая поступление в детский сад на год (см. «Готов ли ваш ребенок к детскому саду»?, лето 2017 г.). Широко распространенные опасения по поводу этой практики вдохновили Иллинойс и Нью-Джерси на предложения о запрете ношения красных рубашек, что задерживает зачисление примерно 6 процентов учеников детских садов по всей стране.

Можно только задаться вопросом, является ли влияние относительного возраста на результаты тестов новой тенденцией? Или они просто новая находка? Оказывается, ни то, ни другое. Эти эффекты — общепризнанный факт, такой же старый, как и само стандартизированное тестирование, и в прошлом к ​​ним обращались напрямую. Чтобы увидеть путь к большей справедливости в тестировании, мы должны сначала оглянуться на его историю.

Рисунок 1
Рисунок 1

Новый «интеллектуальный тест»

В пятницу в июне 1921 года около 3000 учащихся начальных школ сельского Нортумберленда, Англия, прошли новый тест. Он был разработан в предыдущие месяцы с целью измерения их интеллектуальных способностей. Листы с ответами были собраны в следующий понедельник, и через два дня все они были оценены.

Менее чем через три десятилетия только в 1949 году в Великобритании было проведено более миллиона таких тестов. Разумом, стоящим за этой новой мерой интеллекта, был Годфри Томсон, выдающаяся фигура в психологии.

Родившийся в Англии в 1881 году, Томсон имел скромные средства, но учился в ведущих университетах после того, как выиграл несколько школьных стипендий на конкурсных экзаменах. Он обучался как учитель и ученый, а затем занялся психологией, взяв на себя ответственность за подготовку учителей в колледже Армстронга в Ньюкасле. Одной из тем его лекций было измерение интеллекта.

Между тем примерно в 25 милях к северу от Ньюкасла лидерам Нортумберленда не давала покоя проблема измерения интеллекта. Чиновники искали справедливый способ определить, кто из 11-летних учеников начальной школы получит то, что тогда считалось привилегией бесплатного среднего образования. Томсона пригласили помочь найти решение.

«Это была проблема, которая представляла для меня личный интерес, — объяснял Томсон в «Истории психологии в автобиографии», — ибо я сам не получил бы никакого образования, кроме начальной школы, если бы не выиграл бесплатное место в средней школе в конкурсный экзамен».

Конкурсные экзамены использовались для отбора учащихся средних школ региона в течение многих лет, и почти все места достались учащимся из нескольких школ недалеко от Ньюкасла. Учащиеся, которые посещали начальные школы в бедных или изолированных районах, редко набирали достаточно высокие баллы, чтобы получить место. Местные органы образования, которые объяснили эту закономерность различиями в домашней и школьной среде учащихся, искали новый тип теста, который оценивал бы интеллект, а не академическую успеваемость.

«Однако тесты интеллекта, как надеялись, могли бы обнаружить в этих школах некоторых детей с потенциальными способностями к средней школе, даже если их среда и их более низкое начальное образование препятствовали им в существующем типе экзаменов», — писал Томсон.

Имея это в виду, он создал Нортумберлендский тест на умственные способности, чтобы оценить способности студентов к вербальному и математическому мышлению. По его результатам он отобрал около десятка учеников и дал им бесплатные места в общеобразовательных школах «в качестве эксперимента». За этими учениками следили на протяжении многих лет, и, по мнению Томсона, их успехи оправдывали выбор.

«Двое, увы, умерли от эпидемии гриппа, а двое или трое не смогли закончить хороший курс средней школы, хотя, думаю, больше по социальным и экономическим причинам, чем по недостатку интеллекта. Другие, однако, продолжили и преуспели», — написал он. «Эти мои тесты в Нортумберленде были началом задачи всей моей жизни, которую я чувствовала обязанной упорно выполнять ради умных детей».

Слухи о новом экзамене Томсона распространились, и вскоре он получил просьбы из других регионов Англии помочь им с отбором учеников средней школы. «За это они заплатили мне гонорар», — рассказал он. «Я решил, что уберег себя от искушения делать деньги на этой деятельности, и придумал комитет, чтобы получать все эти доходы и комиссионные от моих тестов». К 1925 году Томсон стал психологом-педагогом в Эдинбургском университете, и экзамены были известны как тесты дома Moray. Доходы, которые они получали, шли на исследования в области стандартизированного тестирования.

В 1932 году практически всем шотландским детям, родившимся в 1921 году (примерно 90 000 человек), был предложен тест Moray House Test в рамках национальной программы по измерению интеллекта под названием «Шотландское исследование умственных способностей». Аналогичный опрос был проведен в 1947 году среди детей, родившихся в 1936 году. Эти опросы являются знаковыми и позволили исследователям изучить взаимосвязь между интеллектуальными способностями и другими переменными, включая поведение в отношении здоровья, социально-экономическую мобильность и удовлетворенность жизнью. В 1949 году Томсон был посвящен в рыцари королем Георгом VI за его вклад в образование.

Возрастные ограничения в действии

Годфри Томсон, выдающаяся фигура в области психологии, создал Нортумберлендский интеллектуальный тест, чтобы помочь оценить математические способности учащихся и их способности к вербальному мышлению.
Годфри Томсон, выдающаяся фигура в области психологии, создал Нортумберлендский интеллектуальный тест, чтобы помочь оценить математические способности учащихся и их способности к вербальному мышлению.

Тесты Томсона были разработаны для измерения способностей и выявления тесной связи между школьными заданиями и социальным статусом. Но они также выявили еще одно преимущество: повышение, которое дает возраст в тестах, пытающихся измерить интеллектуальные способности школьников. Чтобы сделать соответствующие сравнения между учащимися, необходимо было учитывать возрастные различия, даже если они составляли всего несколько месяцев. Поэтому Томсон включил формулу, которая добавляет или вычитает несколько баллов за каждый месяц возраста при расчете коэффициента интеллекта каждого ученика. Эта корректировка стала известна как «возрастная надбавка» и основана на среднем увеличении результатов теста, которое может произойти в результате того, что один и тот же учащийся сдает тест в немного другом возрасте.

Пособие по возрасту — простая идея. Подумайте о диаграммах роста, которые педиатры используют для оценки роста и веса ребенка, которые отслеживают эти показатели по возрасту ребенка в месяцах. Чтобы создать эту диаграмму, кто-то собрал информацию о многих детях и записал их точный возраст. Имея множество наблюдений, можно вычислить средний балл для каждого возраста в месяцах. Надбавка по возрасту — это просто поправка на тенденцию в оценках, обусловленная возрастом.

Это также была новаторская разработка. В 1959 году психолог П. Э. Вернон похвалил достижение Томсона, написав: «Если бы кого-то попросили назвать одну область, в которой Томсон был бесспорным пионером, который лидировал в остальном мире, это была бы стандартизация и применение возрастных поправок к психологическим тестам». Томсон «усовершенствовал метод определения соответствующей возрастной поправки для каждой месячной группы, к которой применим тест, без необходимости собирать огромные выборки детей каждого месяца».

Этот метод подсчета очков не был без споров. В 1953 году британская газета «Гардиан» (тогда она называлась «Манчестер Гардиан») сообщила о некоторых недовольствах родителей в отношении процесса определения того, какие учащиеся будут посещать специальные средние школы, известные как «гимназии». Одна конкретная жалоба заключалась в том, что надбавка по возрасту отдавала предпочтение «молодежи ниже среднего по сравнению со старшеклассниками выше среднего, которые, по взвешенному мнению школьных учителей, лучше учились бы в гимназии». Газета пояснила:

В этом обвинении эксперты вежливо признают себя виновными, но в то же время протестуют против того, что их возрастная надбавка (которая может достигать двенадцати или четырнадцати процентов) скрупулезно справедлива и точна. […] В чем же тогда подвох? Просто в том, что ни на каком другом этапе карьеры школьника не делается поправок на возраст.

Другими словами, надбавки по возрасту делают прием более справедливым, но учащиеся, которые получают от них выгоду, как правило, хуже успевают, чем те, кто этого не делает. Это не потому, что они хуже учатся; скорее, это потому, что такие пособия не следуют за учениками в класс. После поступления студенты «впоследствии сдают все внутренние и внешние экзамены одновременно, и младшие никогда больше не будут получать возрастную надбавку».

Это понимание применимо сегодня так же, как и семь десятилетий назад. Уравнивание правил игры при поступлении не стирает различий в результатах тестов и среднем балле после поступления. В среднем младшие школьники все равно будут хуже своих старших одноклассников.

В этом контексте крайне важно прояснить цель использования результатов тестов при поступлении. Справедливо ли выбрать талантливых учеников или предсказать, какие ученики будут лучше? Если важна «точность, с которой [тест] предсказывает успеваемость», — продолжила статья в «Гардиан», — нельзя делать поправку на возраст, и допуски будут сильно взвешены в пользу детей, рожденных в правильные месяцы. Но пока поступление в гимназию считается привилегией, за которую нужно бороться, такой критерий был бы явно несправедливым».

До тех пор, пока вступительные экзамены предназначены для справедливого распределения возможностей для талантливых студентов, допустимы возрастные надбавки. По словам Томсона, «цель возрастной надбавки не в том, чтобы улучшить предсказание, а в том, чтобы отдать должное детям, рожденным в разные месяцы года».

Влияние на справедливость

Вопросы, поднятые в статье Guardian, заставляют многие органы образования неохотно вносить поправку на возраст в результаты тестов. Тем не менее, более широкая точка зрения заключается в несправедливости всех показателей успеваемости, которые не учитывают возрастные различия между одноклассниками. Тестовые оценки с поправкой на возраст, используемые при поступлении, — это шаг в правильном направлении. Но сам по себе он не устраняет недостатки, с которыми сталкиваются младшие школьники в более поздних тестах или оценках.

Тем не менее, лучше повысить справедливость при приеме, даже если игровое поле не уравнивается по другим показателям успеваемости. Тот факт, что учебное заведение, школьный округ или страна не могут исправить все искажения, вызванные относительным возрастом, не означает, что они не должны исправлять некоторые из них. Частично решить проблему лучше, чем не решить ее вообще. Кроме того, есть доказательства преимуществ такого подхода.

В 1944 г. ряд новых правил внес важные изменения, чтобы расширить возможности получения образования по всей Англии и Уэльсу. Закон об образовании 1944 года повысил возраст обязательного школьного образования до 15 лет, сделал средние школы бесплатными для всех и включил церковные школы в национальную систему. Все учащиеся должны были сдать конкурсный вступительный экзамен после 11 лет. Многие школы начали использовать тесты Moray House, которые включали возрастную надбавку.

Экономисты Роберт Харт и Мирко Моро проанализировали, как в результате реформы изменился набор детей в гимназии. До 1944 года дети, рожденные с января по август — середину или конец учебного года, — имели меньше шансов найти место в гимназии, чем их старшие одноклассники, родившиеся с сентября по декабрь. После реформы учащиеся, родившиеся в середине года, имели гораздо больше шансов получить место в гимназии, что, по мнению Харта и Моро, отчасти было связано с увеличением использования надбавок по возрасту. Другими словами, введение пособий по возрасту увеличило количество принимаемых студентов, которые в противном случае были бы исключены только из-за месяца их рождения.

Нетрудно найти актуальность этих открытий прошлого века в современном мире. Рассмотрим тест, подобный тем, которые используются школьными округами в Бостоне, Чикаго или Нью-Йорке для приема учащихся в избранные государственные средние школы. Если учащиеся, которым 14 лет и 11 месяцев в день экзамена, набирают в среднем на два балла больше, чем учащиеся, которым 14 лет и 10 месяцев в день экзамена, их окончательная успеваемость на экзамене должна учитывать эту возрастную разницу. . Это относится и к вступительным экзаменам в колледжи — не только к SAT и ACT в США, но и к Gaokao в Китае, Vestibular в Бразилии, Suneung в Южной Корее, Exani в Мексике и так далее. Работа Томсона показывает, что создатели и администраторы этих тестов могут точно определить, какими должны быть правильные возрастные ограничения, исходя из уникального контекста экзамена и учащихся.

Рисунок 2
Рисунок 2

Опасности впереди

Если надбавки за возраст повышают справедливость и осуществимы (доказано Томсоном сто лет назад), разве они не должны быть более популярными? Почему мы не видим их в других системах образования? Во-первых, убеждение, что разница в возрасте в несколько месяцев перестает иметь значение в академическом контексте, настолько же широко распространено, насколько и неверно. Но я вижу и другого виновника. Даже если некоторые заинтересованные стороны знают о влиянии относительного возраста, существует проблема коллективных действий.

Ни одно учебное заведение или школьный округ не работает изолированно, и многие из них используют одни и те же или похожие вступительные экзамены. Так что одностороннее принятие возрастных надбавок может быть плохой идеей. Представьте себе, что одна избирательная школа решает сделать «внутреннюю» возрастную надбавку при приеме, в то время как аналогичные учреждения этого не делают, но все они используют один и тот же тест. Учреждение, принимающее возрастную надбавку, испытает снижение нескорректированных результатов тестов. Конечно, поступление в это учреждение было бы более справедливым. Но среднее качество поступающих студентов, измеренное по результатам тестов, будет выглядеть хуже как по сравнению с прошлыми поступающими классами, так и с аналогичными учреждениями.

Возрастные надбавки могут повредить рейтингу учебного заведения — высокая цена в гиперконкурентной среде, в которой даже престижные учебные заведения, такие как Claremont McKenna College и Emory University, ложно завышают средние баллы SAT поступающих первокурсников для таких изданий, как U.S. News & World. Сообщите, чтобы повысить их публичные профили. Будет принято большее количество относительно молодых студентов, в то время как большее количество относительно старых студентов будет отклонено, что снизит средние нескорректированные баллы SAT. Несмотря на растущую тенденцию к зачислению без экзаменов, средние баллы SAT остаются важной метрикой для многих учебных заведений, и любая школа, которая ввела возрастные надбавки, автоматически упала бы в рейтинге колледжей. Маловероятно, что какое-либо учебное заведение, даже если оно заинтересовано в справедливости приема, захочет первым ввести возрастные надбавки.

Однако не все заинтересованные стороны в области стандартизированного тестирования имеют одинаковые интересы и опасения. Чтобы решить проблему коллективных действий, мы можем исходно сделать поправку на возраст. Создатели тестов и администраторы тестов не сталкиваются с необходимостью выбора между справедливым зачислением и рейтингом вуза. Они также наблюдают за всеми тестируемыми и имеют хорошие возможности для определения того, насколько большим или маленьким должен быть «удар» для младших школьников. Они могут последовать примеру Томсона и объяснить это намеренно.

Чтобы оценить потенциальное влияние введения пособий по возрасту, мы можем посмотреть на последние результаты тестов в Англии на двух вступительных экзаменах в средние школы. Хотя эти экзамены «11+» используются для поступления во все 160 средних школ Англии, в разных регионах и школах используются разные тесты. Не каждый используемый тест включает возрастную надбавку, несмотря на давний прецедент.

Я смотрю на средние баллы учащихся по двум тестам: один проводится Центром оценки и мониторинга Университета Дарема, который включает возрастные надбавки, а другой проводится Консорциумом отборных школ в Эссексе, который не учитывается (см. рис. 2). В школах Эссекса, использующих нескорректированный тест, самые младшие ученики, родившиеся в августе, набирают примерно на 0,2 стандартного отклонения меньше, чем самые старшие ученики, родившиеся в сентябре прошлого года. Напротив, мы не видим таких различий в тестах с поправкой на возраст.

Прием, который использует нескорректированные баллы, очевидно, наносит ущерб учащимся, родившимся в августе, по сравнению с теми, кто родился в сентябре. Но они также наказывают учеников, родившихся в июле, июне и т. д. вплоть до октября, хотя и в меньшей степени. Даже в одной и той же стране и при одном и том же процессе приема не все школы находятся в фургоне возрастных пособий, который покинул Нортумберленд в 1920-х годах.

Дело о продлении возрастных пособий

Надбавки за возраст имеют проверенную репутацию и должны быть включены в любой тест, для которого есть указание на то, что возраст имеет значение. Имеются четкие доказательства того, что возраст влияет на измерение интеллекта, по крайней мере, до 18 лет. Что не менее важно, существуют также данные о влиянии возраста на SAT и ACT, два самых популярных вступительных экзамена в колледжи в США. Например, исследование, проведенное Стивеном Хемельтом и Рэйчел Розен, показало, что 12-месячный возраст увеличивает баллы по ACT на целых три процентиля. Согласно моему предварительному анализу влияния возраста на результаты SAT, учащиеся, которые пересдают тест через год после первого раза, получают около восьми процентилей. Конечно, сдающие второй раз, могут быть лучше знакомы с форматом SAT и лучше подготовиться, чем студенты, сдающие тест в первый раз. Но, учитывая влияние возраста на результаты тестов, которое мы видели на рисунках 1 и 2, тот факт, что они на один год старше, также может показаться важным фактором.

Недавние шаги растущей группы известных американских учебных заведений, направленные на то, чтобы стандартизированные результаты тестов стали необязательной частью заявлений студентов, не облегчат жизнь относительно молодым абитуриентам. Члены приемной комиссии колледжей обращают внимание на другие признаки таланта, и эти признаки также зависят от возраста. Например, один анализ среднего балла старшеклассников показывает, что относительно младшие ученики уступают своим старшим одноклассникам. Чтобы скорректировать эту предвзятость, возрастные надбавки также могут быть сделаны в оценках по конкретным предметам, а также в любом тесте академической успеваемости, баллы которого используются для присуждения участия в конкурсных программах, сравнения успеваемости или предоставления отзывов учащимся и семьям.

Пособия по возрасту также могли бы уменьшить академическое переодевание, устранив мотивацию семей откладывать посещение детского сада. Это не второстепенный момент. На общественном уровне переодевание в красную рубашку — расточительная практика. По сути, это игра с нулевой суммой, поскольку в одном и том же школьном классе всегда будут младшие и старшие дети. Не менее важно и то, что, поскольку переодевание в красную рубашку более распространено среди белых детей из семей с высоким доходом, это способствует разрыву в результатах тестов, наблюдаемых по признаку дохода, расовой или этнической принадлежности. Делая красную рубашку менее привлекательной, надбавки за возраст могут одновременно экономить ресурсы и помогать уравнивать игровое поле — редкий шанс одновременно повысить эффективность и справедливость.

Пособие по возрасту не является ни новой, ни радикальной идеей. Пособия так же стары, как и сами стандартизированные тесты, и они родились вместе с измерением интеллектуальных способностей детей. И, прежде всего, включение их в высокоуровневые измерения интеллекта или ученых — это справедливо. По словам Томсона, «надбавки по возрасту иногда те, кто против них, называют надбавкой за молодость. Они не такие. При научном применении они являются средством компенсации несправедливой надбавки за возраст».

*Redshirting - это практика отсрочки поступления в детский сад подходящих по возрасту детей, чтобы дать дополнительное время для социально-эмоционального, интеллектуального или физического роста. В Соединенных Штатах это также относится к принятию законов, устанавливающих крайние даты незадолго до Нового года, чтобы дети, родившиеся в более позднюю часть календарного года (часто с сентября по декабрь), были одеты в новые рубашки для тех же целей. Чаще всего это происходит, когда дни рождения детей настолько близки к предельному сроку, что они, скорее всего, будут одними из самых младших в своем классе детского сада.

Термин возник по аналогии применения красной рубашки в спорте - задержка или приостановление участия спортсмена с целью продления срока его допуска.

Источник