Найти в Дзене
DigEd

Кодекс действий в образовании: перечисление эффектов ИИ в образовании

Автор Бен Уильямсон В последние недели разгорелась полемика вокруг научных публикаций, в которых утверждается, что генеративный ИИ оказывает благотворное влияние на обучение. Два недавних метаанализа эффектов ChatGPT и исследовательская статья, опубликованная Всемирным банком, утверждают, что ИИ приводит к заметному улучшению результатов обучения. Критики начали возражать, что эти исследования имеют методологические недостатки, чрезмерно преувеличены и вводят в заблуждение своими выводами. Прежде чем перейти к критике, стоит обратить внимание на то, как были восприняты эти публикации. Все эти исследования были распространены в Интернете при поддержке ряда аккаунтов с большим количеством подписчиков. Например, последний метаанализ под названием «Влияние ChatGPT на успеваемость студентов, восприятие обучения и мышление высшего порядка: выводы метаанализа» был опубликован 6 мая. На момент написания статьи (28 мая) он имеет Altmetric-рейтинг 365 и был просмотрен 386 000 раз. Его Altmetric-
Оглавление
Бен Уильямсон
Бен Уильямсон

Автор Бен Уильямсон

В последние недели разгорелась полемика вокруг научных публикаций, в которых утверждается, что генеративный ИИ оказывает благотворное влияние на обучение. Два недавних метаанализа эффектов ChatGPT и исследовательская статья, опубликованная Всемирным банком, утверждают, что ИИ приводит к заметному улучшению результатов обучения. Критики начали возражать, что эти исследования имеют методологические недостатки, чрезмерно преувеличены и вводят в заблуждение своими выводами.

Прежде чем перейти к критике, стоит обратить внимание на то, как были восприняты эти публикации. Все эти исследования были распространены в Интернете при поддержке ряда аккаунтов с большим количеством подписчиков.

Например, последний метаанализ под названием «Влияние ChatGPT на успеваемость студентов, восприятие обучения и мышление высшего порядка: выводы метаанализа» был опубликован 6 мая. На момент написания статьи (28 мая) он имеет Altmetric-рейтинг 365 и был просмотрен 386 000 раз. Его Altmetric-рейтинг состоит из почти 200 упоминаний на Xitter, еще 150 на Bluesky, а также 13 упоминаний в новостях и нескольких упоминаний на Reddit. (Кто знает, насколько высоким был бы этот рейтинг, если бы учитывались посты в Linkedin?)

Предыдущий метаанализ под названием «Улучшает ли ChatGPT обучение студентов? Систематический обзор и метаанализ экспериментальных исследований» уже 42 раза цитировался в других опубликованных научных статьях (по данным Google Scholar), хотя он был опубликован только в декабре 2024 года. Он включен в список ссылок более позднего метаанализа. Это феноменальный показатель первоначального восприятия статьи, цитирования и повторного распространения результатов в последующих публикациях.

Самая последняя публикация, вызывающая актуальную озабоченность, — это исследование Всемирного банка «От досок к чат-ботам: оценка влияния генеративного ИИ на результаты обучения в Нигерии», в котором сообщается об улучшении результатов обучения благодаря программе дополнительных занятий с использованием Microsoft Copilot. Оно широко распространилось в Интернете как доказательство того, что «репетиторство с помощью ИИ» оказывает значительное влияние на успеваемость уже после короткого периода применения. Когда результаты были предварительно представлены в блоге Всемирного банка в начале года, это привело к появлению таких сенсационных заголовков, как «Репетиторство с помощью ИИ помогает нигерийским школьникам освоить материал двухлетнего курса за шесть недель».

-2

В то же время в статье Hechinger Report были обобщены результаты двух других исследований, показывающих пагубное влияние ИИ на процессы обучения. ИИ, как предполагается, снижает критическое мышление и приводит к «когнитивной разгрузке» и «метакогнитивной лени».

-3

Однако эти доказательства «вредного воздействия» ИИ могут быть опровергнуты теми же методологическими проблемами, что и доказательства, якобы подтверждающие причинно-следственную связь между ИИ и улучшением результатов обучения. Основная проблема заключается в том, что в настоящее время существует острая необходимость продемонстрировать причинно-следственную связь между ИИ и образованием — будь то положительную или отрицательную — и это приводит к появлению множества исследований, которые сразу же привлекают огромное внимание общественности и СМИ, несмотря на их значительные методологические недостатки и ограничения.

В кратком ответе на эту ситуацию Тим Фоунс хорошо сформулировал проблему:

Мы действительно очень плохо справляемся с такого рода исследованиями и слишком легко их принимаем. Искусственный интеллект не влияет на обучение — все зависит от контекста, целей, методов и того, как он вписывается в более широкую практику обучения, процессы и пути. ИИ не вызывает «потери знаний» или «когнитивной разгрузки» — то, как мыслится и распределяется мышление, зависит от тех же факторов. ... Попытка изолировать влияние технологии от практик, в которых она применяется, приводит к чрезмерно упрощенным взглядам, которые не являются хорошей основой для действий.

Очевидно, что в настоящее время существует большая проблема с распространением доказательств, касающихся ИИ в образовании, и это быстро становится спорной темой, привлекающей критическое внимание. Одна часть проблемы заключается в научной практике в самой области, другая — в том, насколько легко, быстро и широко могут распространяться статистические данные.

Быстрая наука

Область исследований ИИ в образовании имеет долгую историю, устоявшиеся методы и научные журналы, через которые оцениваются ее результаты и утверждения. Но недавний всплеск исследований и результатов выходит за рамки этой области и ее стандартов. Это означает, что исследования чрезвычайно сомнительного качества и происхождения публикуются с промышленной частотой. Например, в упомянутых выше метаанализах были выявлены тысячи потенциальных статей, опубликованных всего за 2,5 года с момента выпуска ChatGPT.

Комментируя эти мета-исследования, Илкка Туоми подчеркнул, что в самых последних из них даже не было четких стандартов контроля качества. Это означало, что в их анализе были представлены предыдущие исследования, которые, возможно, не прошли строгой экспертной оценки и были опубликованы в журналах с низким рейтингом.

Это указывает на растущую проблему в исследованиях AIED: слабые стандарты доказательности. Откровенно говоря, относительно легко публиковать исследования AIED в журналах с низким качеством рецензирования и высокой скоростью редактирования и публикации. Это позволяет статьям сомнительного качества попадать в процесс поиска для мета-анализа, а затем объединяться в качестве убедительных доказательств в опубликованных мета-исследованиях в более авторитетных журналах. Агрегированные результаты и основные выводы затем распространяются крупными аккаунтами в социальных сетях.

И качество действительно вызывает сомнения. В длительной и глубокой методологической оценке «Хорошая, плохая и уродливая наука об ИИ в образовании» Уэсс Трабельски обнаружил, что большая часть этой литературы содержит недостатки экспериментального дизайна, которые делают выводы недействительными, предсказуемые результаты, полностью спекулятивные и преувеличенные выводы, не подкрепленные данными, и даже некоторые «явное нарушение научной честности, которое каким-то образом прошло через якобы строгий процесс рецензирования».

Проблема особенно остра, когда мета-исследования AIED публикуются в изданиях, считающихся «золотым стандартом», несмотря на сомнительное происхождение представленных в них доказательств. «Мусор входит, золото выходит», как выразился Илкка Туоми. «Псевдонаука» превращается в, казалось бы, достоверную часть доказательной базы, когда она объединяется с десятками подобных исследований в высокорейтинговом журнале и распространяется в качестве совокупного причинного доказательства того, что ИИ влияет на обучение.

Как отмечают сами лидеры в области исследований AIED, большая часть этой «быстрой науки» о влиянии ИИ не имеет достоверности и не разделяет методы обучения и технические возможности.

Перечисление AIED

Проблема мета-исследований заключается в том, что статьи, на которых основаны анализы, в лучшем случае следует рассматривать с осторожностью. Это стало очевидным и после публикации исследования Всемирного банка по искусственному интеллекту в обучении. Несмотря на его быстрое распространение в Интернете, ряд методологических критиков выразили серьезные сомнения в его выводах.

По словам Бетси Вольф, расчеты размера эффекта вмешательства кажутся убедительными, но имеют фундаментальные недостатки. Например, один из показателей результативности («знание ИИ и цифровые навыки») «чрезмерно согласован» с самим Copilot: «можно было бы ожидать, что студенты Copilot будут более знакомы с ИИ». Кроме того, в исследовании ошибочно приравниваются результаты шестинедельного исследования к «годовому приросту знаний».

Майкл Першан дополнительно утверждал, что «в их эксперименте есть несколько серьезных, очевидных проблем, которые явно подрывают их громкие результаты». Основная проблема заключается в том, что в исследовании сравнивалась группа студентов, которые получали дополнительное обучение, в том числе с помощью MS Copilot, в то время как «контрольная группа» не получала ничего, кроме обычных занятий. Другими словами, группа, получавшая дополнительное обучение, получала значительно больше занятий, чем остальные.

«Все, что может показать это исследование, — утверждал Першан, — это то, что программа не была буквально пустой тратой времени»:

Потому что контрольная группа, с академической точки зрения, ничего не делала. Я имею в виду, что, вероятно, они делали много вещей — играли в футбол, тусовались с друзьями, готовили еду и т. д. Но в основном группа, посещавшая занятия после школы, училась больше, а контрольная группа — нет.

Исходя из этого, можно сказать, что исследование действительно показывает, что дополнительные занятия с репетитором помогают улучшить краткосрочные результаты обучения по сравнению с обычным посещением школы, но очень мало говорит о влиянии обучения с помощью ИИ и еще меньше — о влиянии ИИ на долгосрочные результаты обучения (что и стало главным выводом, который широко распространился в Интернете). Даже в благодарственной оценке проекта отмечалось, что «прогнозирование результатов за шесть недель на весь учебный год требует огромных скачков, которые выходят за рамки того, что могут подтвердить данные». Исследование все же широко распространилось в Интернете после его публикации из-за громкого заголовка о значительном улучшении результатов обучения.

Отступив от методологических мелочей, можно посмотреть на этот эпизод с более социологической точки зрения. Он раскрывает нечто о социальной силе статистики и ее распространении.

В конечном итоге, мы наблюдаем быстрое распространение в основном мелких, локальных, контекстно-зависимых исследований ИИ в образовании. Затем они были обобщены за пределы того, что могут точно подтвердить данные. Результаты теперь регулярно публикуются в Интернете как статистическое доказательство того, что ИИ улучшает «успеваемость» или «результаты обучения» и т. п.

Это хороший пример того, как авторитет стал ассоциироваться с цифрами и их предполагаемой объективностью. Существует большое «доверие к цифрам», как сказали бы социологи количественной оценки. Цифры считаются по своей сути правдивыми, что подтверждается «размером эффекта» и «статистической значимостью».

Многие недавние утверждения об ИИ в образовании основаны на такой вере в количественную оценку и ее точные статистические методы. Например, в исследовании Всемирного банка сообщается о «двукратном эффекте некоторых из наиболее эффективных мер в области образования». Такие числовые утверждения кажутся объективными, авторитетными и заслуживающими доверия. Перечисление эффектов ИИ в образовании имеет большое значение для формирования мнения и потенциально влияет на политические решения, касающиеся ИИ в образовании.

Вирусная наука

Однако в реальности цифры всегда являются социальными и техническими достижениями. На каждом этапе принимаются решения о том, что считать, как анализировать, с помощью каких вычислительных устройств, в каких контекстах и при каких условиях. Социальные факторы участвуют в создании статистики на всех этапах: от зарождения идеи, финансирования, разработки, сбора данных, анализа и публикации до контекстов распространения, восприятия и комментирования.

Кроме того, часть силы цифр заключается в том, что они легко переносимы. Они могут распространяться далеко за пределы контекстов, в которых были сгенерированы, и контекстов, которые они «представляют» или «отражают», будь то в их исходном числовом формате или в виде графиков и таблиц.

Это важно, поскольку цифры можно легко переносить и представлять в качестве доказательства, отражающего реальность, при этом скрывая все контекстуальные и социотехнические условия их производства.

Такой процесс был очевиден, например, в том, как недавнее исследование Всемирного банка было представлено с помощью простого графика результатов, который был воспроизведен многими, кто разместил его в Интернете, а также в том, как статистическая величина эффекта была представлена в качестве объективного доказательства эффективности вмешательства Copilot. Фактические контекстуальные факторы, лежащие в основе исследования, и детали его реализации — в частности, контрольная группа — были удобно отодвинуты на второй план, особенно в связи с тем, что основные выводы исследования широко распространялись в социальных сетях.

Другими словами, широко освещаемые статистические данные о влиянии ИИ должны были быть сформированы, интерпретированы, вырваны из контекста, раздуты, универсализированы, а затем сделаны доступными на платформах, способствующих вирусной передаче информации. В этом нет ничего обманчивого или зловещего, но это, безусловно, дает личное, организационное, репутационное и цитируемое преимущество тем, кто может претендовать на производство «политически значимых» количественных доказательств.

Не будет удивительным, если через несколько месяцев результаты исследования Всемирного банка, а также мета-исследования будут включены в политические отчеты, а также тысячи раз процитированы в качестве доказательства влияния ИИ на результаты образования. Перечисление и вирусная популярность в Интернете эффектов AIED, вероятно, придадут этим исследованиям значительную социальную и политическую силу, особенно в контекстах, которые якобы ценят «основанную на фактах политику», «следующую науке».

Тогда эти, казалось бы, объективные, количественные данные могут быть использованы для поддержки политических планов в контекстах, находящихся за тысячи километров и в совершенно других социальных, политических и экономических условиях, чем в месте первоначального перечисления.

Такое «быстрое» производство и распространение доказательств резко контрастирует с недавними качественными социологическими исследованиями ИИ в образовании, которые выдвигают на первый план контекстуальные и субъективные факторы, влияющие на использование студентами приложений ИИ и их осмысление. Но эта форма более медленной, осторожной, критически контекстуализированной и менее обобщаемой науки с меньшей вероятностью получит широкое распространение и привлечет большое внимание, чем легко переносимые статистические результаты.

-4

И это несмотря на то, что она предлагает более глубокое понимание того, как ИИ вплетается в образовательную практику и процессы обучения.

Возможно, важным направлением социологических исследований могло бы стать углубленное изучение социальных и технических аспектов производства доказательств в области ИИ в образовании, что помогло бы лучше понять все факторы, влияющие на то, как такие доказательства производятся, распространяются и воспринимаются в социальном контексте, который ценит и чрезмерно преувеличивает значение вирусной науки.

Источник