Найти в Дзене
DigEd

Есть ли место ИИ в оценке научных исследований?

Оглавление

Авторы: Элизабет Гадд, Ник Дженнингс

По мере того как мир стремится применять ИИ в своей работе, его использование становится очевидным как в производстве «продуктов» научных исследований для оценки (результаты, предложения, резюме), так и в фактической оценке этих продуктов и их производителей. Все это происходит в то время, когда научно-исследовательский сектор стремится реформировать способы оценки научных исследований, как для смягчения некоторых проблемных последствий форм оценки, в которых доминируют публикации (таких как рост числа фабрик по производству научных работ, продажа авторских прав, картели по цитированию и отсутствие стимулов для участия в открытых научных практиках), так и для приоритезации рецензирования над исключительно количественными формами оценки.

-2

Где встречаются реформа оценки и инструменты ИИ

На стыке реформы оценки и ИИ возникают две основные проблемы. Первая — это степень, в которой наша текущая система оценки способствует неправомерному использованию генеративного ИИ для производства высокоценных результатов, которые выглядят научными, но таковыми не являются.

Фото: Ифэй Фан/Getty Images
Фото: Ифэй Фан/Getty Images

Вторая — это степень, в которой ИИ может легитимно использоваться в оценке исследований в будущем.

Что касается первой проблемы, то мы находимся на хорошо протоптанной почве. Узкие, ориентированные на публикации методы оценки, используемые для оценки исследований и исследователей, приводят к множеству нежелательных явлений. Одним из таких явлений является применение сомнительных исследовательских практик, таких как предвзятость в публикациях и цитировании. Еще хуже — недобросовестность в исследованиях, такая как фабрикация, фальсификация и плагиат. Система поощряет публикации сами по себе, а не содержание и качество исследований, до такой степени, что теперь поощряет даже приблизительные публикации. Поэтому неудивительно, что недобросовестные участники будут иметь финансовую мотивацию использовать любые доступные им средства для создания публикаций, включая ИИ.

В данном случае нашей основной проблемой является не ИИ, а оценка научных исследований, в которой доминирует публикация. Мы можем решить эту проблему, расширив спектр вкладов, которые мы ценим, и применяя более качественный подход к оценке. Таким образом, мы, по крайней мере, будем препятствовать загрязнению так называемых «научных записей» (отборного, рецензируемого контента) подделками и фальсификациями.

ИИ в научных результатах и оценке

Предположим, что нам удалось пресечь использование ИИ для создания бесполезных публикаций в любой реформированной системе оценки. Остается вопрос, может ли ИИ стимулироваться для других целей. Дело в том, что расширение критериев оценки научной деятельности и переход к более качественным (то есть «нарративным») формам оценки приведет к увеличению, а не уменьшению объема работы как для оценщиков, так и для оцениваемых. И если есть одна вещь, в которой GenAI действительно хорош, так это в быстром создании нарративов. GenAI может даже помочь выровнять условия для тех, для кого язык оценки не является родным, сделав статьи более понятными и легкими для чтения. В большинстве руководящих принципов говорится, что при соблюдении надлежащих мер безопасности — если человек сохраняет редакционный контроль, прозрачно использует ИИ и не вводит конфиденциальную информацию в большую языковую модель — вполне законно представлять полученный контент для оценки.

Руководства более осторожны в отношении использования ИИ для проведения оценки. Руководства Европейского исследовательского пространства по ответственному использованию ИИ в исследованиях четко указывают, что мы должны «воздерживаться от использования инструментов GenAI в рецензировании и оценке». Но это не значит, что исследователи не проводят эксперименты. Команда Майка Телволла продемонстрировала слабый успех в использовании Chat GPT для воспроизведения оценок рецензирования людьми, и многие исследователи считают, что они стали жертвами нового, чрезмерно тщательного и менее агрессивного рецензента № 2, который, вероятно, является ИИ.

Но учитывая, что рецензирование людьми уже является весьма спорным занятием (когда рецензент № 1 соглашается с рецензентом № 2?), мы должны задать вопрос: если ChatGPT не может воспроизвести оценки рецензентов-людей, то что это говорит больше о ИИ или о людях? Мы должны задаться вопросом, являются ли оценки людей правильными и не вредят ли мы машинному обучению, ожидая от него простого воспроизведения оценок людей, только быстрее. Можно утверждать, что настоящая сила ИИ заключается в том, чтобы видеть то, что мы не можем видеть, находить закономерности, которые мы не можем найти, и выявлять потенциал, который мы не можем выявить.

Двойная ценность экспертной оценки

Возможно, сначала мы должны спросить: заключается ли научный процесс исключительно в генерации и (посредством оценки исследований) проверке новых открытий? Или есть что-то ценное в самом акте открытия и проверки: приобретение и применение навыков, знаний и понимания, которые являются фундаментальными для человека?

Мы должны спросить себя, заключается ли процесс сотрудничества с другими людьми в поисках новых знаний только в этих новых знаниях, или же в налаживании связей и взаимодействии с другими людьми, что имеет важное значение для благополучия человека, гражданского общества и геополитической безопасности.

Признание со стороны других людей — посредством экспертной оценки и рецензирования — это не просто проверка наших результатов и вклада, а нечто, имеющее решающее значение для нашего благополучия и мотивации: признание того, что я вижу вас и ценю вас как человека. Будет ли какой-либо исследователь счастлив, зная, что его вклад был оценен исключительно с помощью автоматизации?

Все сводится к тому, ценим ли мы только результат или процесс. И если мы постоянно передаем этот процесс технологии и получаем результаты, которые могут дать ответы, но которые мы на самом деле не понимаем и которым не доверяем, мы рискуем потерять всю человеческую связь с исследовательским процессом. Навыки, знания и понимание, которые мы накапливаем в процессе оценки, безусловно, имеют решающее значение для развития исследований и исследователей.

Действовать с должной осторожностью

Нет никаких оснований для полного осуждения ИИ. Он используется (а его точность затем проверяется людьми) для решения многих ранее нерешенных проблем общества. Однако когда речь заходит о вопросах суждения, где люди могут не соглашаться с «правильным ответом» — или даже с тем, что существует правильный ответ — мы должны быть гораздо более осторожными в отношении роли ИИ. Оценка научных исследований относится к этой категории.

Существует много параллелей между ролью метрик и ролью ИИ в оценке научных исследований. Существует значительное согласие в том, что метрики не должны проводить оценку за нас без контроля со стороны человека. Реформаторы системы оценки четко понимают, что использование соответствующих показателей часто может привести к более качественной оценке, но приоритет должен отдаваться человеческому суждению. Эта логика дает нам план действий в отношении ИИ: сначала человеческое суждение, а затем технология в качестве поддержки; или оценка человека, дополненная ИИ.

Запретив использование ИИ в оценке, руководство ERA приняло вполне понятное осторожное первоначальное решение. Однако при правильном использовании разумное участие ИИ в оценке может быть нашим другом, а не врагом. Во многом это зависит от типа оценки научных исследований, о которой мы говорим, и от роли, которую мы позволяем играть ИИ. Использование ИИ для подготовки первоначального проекта письменных представлений, а также для обобщения, выявления несоответствий или предоставления мнения о содержании этих представлений может привести к более справедливой, надежной и качественной оценке. Однако мы не должны полагаться на ИИ в творческой работе по реформированию оценки и переосмыслению понятия «качество», а также не должны полностью передавать принятие решений ИИ. Стремясь реформировать оценку научных исследований, мы должны просто быть открытыми к возможностям, которые предлагают новые технологии для поддержки человеческих суждений.

Источник