Найти в Дзене
Вот Как!

SCIgen против WMSCI: как в 2000-х программой-генератором текстов троллили научное сообщество

Оглавление

Сегодня, в 2020-х годах, о нейросетях, голосовых ассистентах, чат-ботах и в целом об искусственном интеллекте не говорит разве что ленивый. При этом важно понимать, что техническая сторона вопроса не нова, ведь примитивные генераторы текста существовали задолго до современных продвинутых алгоритмов.

Одной из таких программ был SCIgen – генератор квазинаучных текстов, наделавший немало шума в научных кругах и за его пределами.

SCIgen – старый по меркам интернета проект, но его сайт работает до сих пор. На изображении – скриншот шапки сайта проекта с описанием программы
SCIgen – старый по меркам интернета проект, но его сайт работает до сих пор. На изображении – скриншот шапки сайта проекта с описанием программы

Программисты создают SCIgen и троллят конференцию WMSCI

Программу разработали в начале 2000-х трое американских программистов – выпускников Массачусетского Технологического Института. Функционал SCIgen сводился к созданию псевдонаучных текстов с использованием самых разных опубликованных научных статей.

Генератор анализировал большой объём статей в выбранном направлении, брал часто встречающиеся слова и словосочетания, а затем «склеивал» их в предложения, дополняя иллюстрациями и графиками.

На выходе получался материал, напоминавший научную статью, который, однако, не был осмысленным и походил на научный лишь стилем изложения. Этакая сборная солянка из всего, до чего SCIgen мог «дотянуться».

Несведущему в тематике текста читателю могло показаться, что статья несёт какой-то смысл, однако при попытках прочтения создавалось ощущение, что постичь этот смысл невозможно.

Что неудивительно, ведь создание осмысленных текстов не было задачей программы: по словам разработчиков, они просто хотели таким образом развлечься.

Программистам, сделавшим SCIgen, досаждала WMSCI Всемирная мультиконференция по системоведению, кибернетике и информатике, которая регулярно рассылала письма с просьбами о финансовой поддержке. Создатели генератора текстов сочли эти сообщения навязчивым спамом, и решили потроллить организаторов конференции.

Логотип конференции WMSCI 2023 года (проводится ежегодно с 1995-го)
Логотип конференции WMSCI 2023 года (проводится ежегодно с 1995-го)

С помощью SCIgen была сгенерирована квазинаучная статья под названием “Rooter: A Methodology for the Typical Unification of Access Points and Redundancy”, которая наделала немало шума. Программисты заявили её на WMSCI 2005 года, и организаторы приняли заведомо бессмысленную статью без рецензирования, а авторов пригласили на конференцию.

Те в ответ на приглашение опубликовали на своём сайте информацию о происхождении статьи и о своей мистификации-розыгрыше.

В итоге WMSCI поплатилась за невнимательность: один из спонсоров, Институт инженеров электротехники и электроники (IEEE) лишил конференцию финансирования.

Массивный след SCIgen в научной публицистике

История с WMSCI оказалась, пожалуй, самой громкой из проделок SCIgen. Точнее, из проделок тех, кто этой программой пользовался, ведь разработчики не держали её у себя, а распространяли среди всех желающих.

Однако известны и другие случаи принятия сгенерированных программой статей к публикации на научные конференции. Более того, такие статьи даже публиковались в научных журналах, и уже опубликованные статьи попали более чем на 30 конференций.

В 2010-м году неизвестный шутник опубликовал от имени вымышленного автора Айка Анткаре 102 статьи, которые также сгенерировала SCIgen. Несуществующий мистер Анткаре обвёл вокруг пальца не кого-нибудь, а саму Google Scholar (Google Академию) – специальную поисковую систему по научным публикациям.

Актуальный на 2023 год логотип системы Google Scholar (она же Google Академия)
Актуальный на 2023 год логотип системы Google Scholar (она же Google Академия)

Фальшивые статьи принялись цитировать другие авторы, и индекс цитирования Анткаре подскочил до 94 баллов, что сделало виртуального Айка 21-м по цитируемости учёным в мире. Само собой, лишь до момента удаления автоматически сгенерированных статей.

В 2021 году было проведено исследование сгенерированных SCIgen и опубликованных в специализированной литературе псевдонаучных материалов.

В своё время только из двух научно-технических издательств (Springer и IEEE) были изъяты 120 творений программы, которые были опубликованы между 2008 и 2013 годами. Несмотря на это, исследование 2021 года говорит о 243 опубликованных статьях SCIgen.

И это лишь малая часть того, что было обнаружено.

Вообще тема рецензирования научных текстов – вопрос, стабильно часто возникающий в академической среде.

Авторы SCIgen заявили назначение программы как «автоматическое генерирование тезисов для конференций, подозреваемых в низком цензе приёма», то есть фактически официально назвали SCIgen инструментом для троллинга тех организаторов научных конференций, которые невнимательно относятся к рецензированию поступающего материала.

Нашумевшая в 2005 году статья SCIgen оставила след и в российской академической среде, а ещё этот генератор текстов – не единственный инструмент подобного троллинга.

Подробнее об этом – в следующей статье на канале: