Большие языковые модели (LLM) появились сравнительно недавно, но уже успели вызвать серьезную тревогу в научном сообществе. Оказалось, что ChatGPT, Bard, LLaMa, OpenAI и другие подобные нейросети способны в кратчайшие сроки писать работы любого уровня, от студенческих до серьезных академических. Возможностью заказать реферат, курсовую или более сложный труд у «машин» уже воспользовалось огромное количество недобросовестных студентов и ученых. Бороться с этой проблемой начали в Университете Мэриленда в США.
В сформированную команду вошли пять сотрудников. Сохэйл Фейзи, Аунон Кумар, Шрирам Баласубраманян, Вэньсяо Ван и Вина Санкар Садасиван будут искать способ автоматически распознавать текст, сгенерированный нейросетями.
Пока их выводы неутешительны. Дело в том, что работа нейросетей чаще всего является лишь первым этапом создания тех или иных трудов. Затем созданный ими продукт прогоняют через другие программы, которые заменяют использованные слова на близкие по смыслу. Делается это также элементарно и быстро. После такого вероятность отличить текст, сгенерированный при помощи больших языковых моделей значительно снижается – с 97% до 57-80%.
«Детекторы, которые мы пробовали использовать для распознания текста (рефератов, курсовых), созданного программами, оказываются бесполезными, стоит им предложить перефразированную работу. В том числе это детекторы, базирующиеся на распознавании водяных знаков, созданные по принципу тех же нейросетей и классификаторы нулевого выстрела», - поделились ученые.
Они опасаются, что в случае их фиаско последствия могут быть весьма плачевными, ведь LLM становятся все более востребованными. Их уже начали интегрировать в свои приложения крупные компании. Это может обернуться огромным количеством сложного спама, появлением фальшивых новостей, направленных на те или иные манипуляции, плагиатом и большим количеством ошибок и неточностей в самых разных документах.
«Полагаем, пора привыкать жить в мире, в котором невозможно различать тексты, созданные человеком и машиной. Для того чтобы избежать неприятных последствий, вероятно, придется перепроверять всю информацию, сравнивая ее в разных источниках. Так, некоторые социальные платформы уже начали проверять учетные записи. Это поможет им свести к минимуму количество фейков», - резюмируют ученые.