Автор Тара Гарсия Мэтьюсон
Стэнфордское исследование показало, что детекторы ИИ предвзято относятся к тем, для кого английский язык не является родным.
Тейлор Хан, преподающий в Университете Джона Хопкинса, прошлой весной получил предупреждение, когда оценивал студенческую работу по курсу коммуникации. Он загрузил задание в Turnitin, программное обеспечение, используемое более чем 16 000 академических учреждений по всему миру для обнаружения плагиата в тексте и, начиная с апреля, для пометки текстов, созданных искусственным интеллектом.
Turnitin назвал более 90% студенческой работы созданной искусственным интеллектом. Хан организовал встречу в Zoom со студентом и объяснил находку, попросив показать заметки и другие материалы, использованные для написания статьи.
«Этот студент сразу же, без предварительного уведомления о том, что это касается ИИ, показал мне черновики, PDF-файлы с маркером поверх них», — сказал Хан. Он был убежден, что инструмент Turnitin допустил ошибку.
В другом случае Хан работал непосредственно со студентом над планом и черновиками статьи, но Turnitin пометил большую часть представленной статьи как созданную ИИ.
В течение весеннего семестра Хан заметил закономерность этих ложных срабатываний. Инструмент Turnitin гораздо чаще помечал письменные работы иностранных студентов как созданные ИИ. Когда Хан начал замечать эту тенденцию, группа компьютерщиков из Стэнфорда разработала эксперимент, чтобы лучше понять надежность детекторов ИИ при письме не носителями английского языка. В прошлом месяце они опубликовали статью, обнаружив явную предвзятость. Хотя они не проводили свой эксперимент с Turnitin, они обнаружили, что семь других детекторов ИИ помечали письмо неносителей языка как сгенерированное ИИ в 61% случаев. Примерно в 20 процентах работ эта неверная оценка была единодушной. Между тем детекторы почти никогда не допускали таких ошибок при оценке письма носителей английского языка.
Письмо тех, для кого английский язык не является родным, чаще путают с написанным искусственным интеллектом.
Семь детекторов ИИ часто ошибочно классифицировали письма тех, для кого английский язык не является родным. Изменение сложности словарного запаса повлияло на частоту ошибок ИИ.
Детекторы ИИ, как правило, запрограммированы помечать письмо как созданное ИИ, когда выбор слов предсказуем, а предложения более простые. Как оказалось, письма тех, для кого английский язык не является родным, часто соответствуют этому шаблону, и в этом кроется проблема.
Люди обычно имеют больший словарный запас и лучше понимают сложную грамматику своего родного языка. Это означает, что люди, для которых английский язык не является родным, как правило, пишут по-английски проще. Как и ChatGPT. Фактически, он имитирует человеческое письмо, анализируя все, что он когда-либо обрабатывал, и создавая предложения, используя наиболее распространенные слова и фразы. Даже если детекторы ИИ не обучены специально отмечать менее сложный текст, инструменты учатся делать это, снова и снова видя, что текст, созданный ИИ, менее сложный.
Вейсинь Лян, один из авторов Стэнфордского исследования, выучил кантонский и мандаринский диалекты до английского. Он скептически отнесся к заявлениям о почти идеальной точности детекторов ИИ и хотел более внимательно изучить, как они работают для студентов с таким же лингвистическим образованием, как у него.
«Дизайн многих детекторов GPT по своей сути дискриминирует авторов, не являющихся носителями языка, особенно тех, которые демонстрируют ограниченное языковое разнообразие и выбор слов», — сказал Лян по электронной почте.
После дебюта ChatGPT в ноябре прошлого года многие из почти 950 000 иностранных студентов по всей стране, как и их сверстники, задумались о последствиях. Педагоги паниковали из-за того, что учащиеся могут использовать генеративный ИИ для выполнения заданий. И иностранные студенты, которым разрешили учиться здесь по образовательным визам, быстро осознали свою уязвимость в гонке вооружений, развернувшейся между генераторами и детекторами ИИ.
Хай Лонг До, первокурсник Университета Майами в Оксфорде, штат Огайо, сказал, что страшно подумать, что часы, которые он тратит на исследования, составление и редактирование своих статей, могут быть поставлены под сомнение из-за ненадежных детекторов ИИ. Для него, уроженца Вьетнама, необъективные детекторы представляют угрозу его оценкам, а значит, и его заслугам для стипендии.
«Гораздо хуже, — сказал До, — то, что флаг ИИ может повлиять на мою репутацию в целом».
Некоторые иностранные студенты видят дополнительные риски. Колледжи и университеты регулярно сообщают своим иностранным студентам, что обвинения в академических проступках могут привести к отстранению или исключению, что подорвет их визовый статус. Угроза депортации может ощущаться как законный страх.
Шьям Шарма — адъюнкт-профессор Университета Стоуни-Брук, пишет книгу о подходе США к обучению иностранных студентов. Он говорит, что университеты обычно не поддерживают эту подгруппу в своих кампусах, а профессора часто не понимают их уникальных обстоятельств. Шарма рассматривает продолжающееся использование неисправных детекторов ИИ как пример того, как учебные заведения игнорируют иностранных студентов страны.
«Потому что жертва здесь менее важна», — сказал Шарма. «Жертва здесь менее достойна второго размышления или допроса инструмента».
Однако были преподаватели, которые подвергли этот инструмент сомнению, обнаружив, как и Хан, ошибочность детекторов ИИ и отметив серьезные последствия необоснованных обвинений. Поскольку кампусы вновь открываются в осеннем семестре, преподаватели должны подумать, дают ли последние исследования более ясные основания для полного отказа от детекторов ИИ.
В статье Ляна его команда указала, что ложные обвинения в мошенничестве могут нанести ущерб академической карьере и психологическому благополучию студента. Обвинения вынуждают студентов доказывать свою невиновность.
«Учитывая вероятность недоверия и беспокойства, вызванных развертыванием детекторов GPT, возникают вопросы о том, перевешивает ли негативное влияние на среду обучения предполагаемые преимущества», — написали они.
Диана Ларье, уроженка Франции, в этом году учится в Школе права Кардозо в Нью-Йорке. По ее словам, в прошлом году на магистерской программе общего права недалеко от Парижа эссе ее подруги на английском языке было помечено как созданное искусственным интеллектом. Когда ее спросили, беспокоится ли она о том, что с ней может случиться то же самое, потому что, как и у ее подруги, английский является ее вторым языком, она ответила прямо: «Конечно». Все, что она может сделать, это надеяться, что это может быть решено быстро. «Я бы просто объяснила моему учителю и надеюсь, что они поймут», — сказала Ларье.
OpenAI закрыл свой детектор ИИ в конце июля из-за низкой точности, а Quill.org и CommonLit сделали то же самое со своей проверкой письма ИИ, заявив, что генеративные инструменты ИИ слишком сложны для обнаружения.
Однако компания Turnitin лишь удвоила свои заявления о высокой точности.
Энни Чечителли, директор по продуктам Turnitin, сказала, что инструмент компании был обучен письму англоговорящих в США и за рубежом, а также многоязычных студентов, поэтому в статье Ляна не должно быть выявлено предвзятости. Компания проводит собственное исследование того, является ли инструмент менее точным при оценке письма тех, для кого английский язык не является родным. Хотя это исследование еще не опубликовано, Чечителли сказала, что пока похоже, что ответ отрицательный.
Тем не менее, она признала, что инструмент в конечном итоге узнает, что более сложное письмо, скорее всего, будет человеческим, учитывая шаблоны в обучающих эссе.
Хевон Ян, первокурсница Нью-Йоркского университета и уроженка Южной Кореи, разочарована детекторами ИИ и своей уязвимостью к ним. «Если это ИИ улавливает наши языковые модели и автоматически принимает решения, я не знаю, как я могу предотвратить это», — сказала она.
Вот почему Лян сказал, что он скептически относится к тому, что детектор Turnitin может избежать предубеждений, которые его команда выявила в своей статье.
«Хотя подход Turnitin кажется благонамеренным, — сказал он по электронной почте, — жизненно важно видеть результаты их текущих тестов и любых сторонних оценок, чтобы сформировать полное представление о производительности их инструмента в реальных сценариях».
В июне Turnitin обновил свое программное обеспечение, чтобы позволить учреждениям отключать индикатор письма ИИ, поэтому, хотя программное обеспечение будет продолжать оценивать письмо для ИИ, его заключение не будет отображаться для инструкторов. По данным компании, по состоянию на конец июля только два процента учреждений-клиентов Turnitin воспользовались этой возможностью.
Университет Питтсбурга был одним из них. В записке для преподавателей в конце июня учебный центр университета заявил, что не поддерживает использование каких-либо детекторов ИИ, сославшись на тот факт, что ложные срабатывания «несут в себе риск потери доверия студентов, уверенности и мотивации, плохой репутации и возможных юридических санкций».
Хотя опыт иностранных студентов не был в центре их принятия решений, Джон Радзилович, исполняющий обязанности директора по поддержке обучения в Университете Питтсбурга, сказал, что его команда протестировала несколько доступных детекторов ИИ и пришла к выводу, что ложные срабатывания слишком распространены, чтобы обосновать их использование. Он знает, что профессорско-преподавательский состав перегружен идеей, что студенты используют ИИ для обмана, но сказал, что поощряет их вместо этого сосредоточиться на потенциальных преимуществах ИИ.
«Мы считаем, что внимание к мошенничеству и плагиату несколько преувеличено и гиперболизировано», — сказал Радзилович. По его мнению, использование детекторов ИИ в качестве контрмеры создает слишком большой потенциал для причинения вреда.