Научных текстов в мире становится все больше, но вместе с этим растет и доля материалов, которые выглядят убедительно лишь на поверхности. Генеративные модели упростили производство статей, а система стимулов в академическом мире оказалась не готова к такому ускорению.
Что происходит
Еще пару лет назад главным риском в научных публикациях считались плагиат и слабая методология, а сегодня добавилась новая категория: тексты, собранные с помощью LLM, иногда без раскрытия этого факта и без нормальной проверки. Формально это может выглядеть как добросовестная «помощь с английским», а по сути превращаться в поток однотипных рукописей, где гладкий стиль маскирует отсутствие новизны, некорректные ссылки и логические провалы.
Параллельно эволюционировали «фабрики статей» и серые сервисы, продающие авторство: им теперь не нужно содержать штат писателей и редакторов, достаточно конвейера из шаблонов, промптов и минимального ручного доведения до ума. В результате на входе у журналов и конференций растет нагрузка, а у рецензентов остается все меньше времени на вдумчивую проверку данных и воспроизводимости.
Показательный симптом масштаба: в одной из оценок инструмент на базе ИИ, который анализирует заголовки и аннотации, пометил более 250 000 работ по онкологии как дело рук контентных фабрик. Это не приговор каждой такой работе, но очень наглядный индикатор того, насколько быстро размывается сигнал на фоне шума.
Почему качество не растет
Проблема не в том, что LLM плохие. Проблема в том, что они резко удешевили упаковку мысли в научно выглядящий формат, а система проверки осталась примерно прежней.
Вот несколько причин, почему бума публикаций недостаточно, чтобы качество росло автоматически:
- Смещение усилий. Время уходит на оформление, переписывание, множественные версии и подгонку текста под стиль журнала, а не на дизайн эксперимента, сбор данных и репликации.
- Иллюзия компетентности. Хорошо написанный текст психологически воспринимается как более надежный, даже если в нем ошибки в ссылках, статистике или причинно-следственных связях.
- Метрики давят сильнее, чем истина. Когда карьерные и грантовые решения завязаны на количество публикаций, система сама производит спрос на «быстрые» статьи.
- Рецензирование не масштабируется линейно. Можно увеличить число сабмитов в два раза, но нельзя так же быстро удвоить число опытных рецензентов.
- Проще подделать текст, чем данные. И именно текст чаще всего видит редактор на первом фильтре.
Отдельная боль: даже инструменты, которые должны помогать с проверкой, могут подводить. Например, в одном исследовании группа LLM корректно распознавала меньше половины отозванных (retracted) статей и при этом давала заметную долю ложных срабатываний, помечая часть нормальных публикаций как «отозванные». То есть «проверять на ретракты с помощью чатбота» звучит удобно, но на практике может создавать новые ошибки.
Как реагируют журналы
Издатели и редакции вынужденно переходят из режима «мы это потом как-нибудь регламентируем» в режим конкретных правил, потому что поток рукописей уже влияет на качество отбора и репутацию.
Один из самых жестких маркеров реальности проблемы: журнал Neurosurgical Review начал массово отзывать комментарии и письма после того, как столкнулся с лавиной материалов, выглядящих как LLM-генерация без должного раскрытия. Сообщалось, что к моменту публикации новости в 2025 году журнал отозвал 129 материалов и даже приостанавливал прием некоторых типов текстов, чтобы разгрузить редакцию и навести порядок в правилах.
Политики крупных издателей в целом сходятся в нескольких принципах:
- Человек отвечает за содержание, а ИИ не может быть автором.
- Использование генеративных инструментов нужно раскрывать, если они участвовали в создании нового контента, а не только в правке орфографии.
- Нельзя бездумно скармливать рукописи внешним сервисам из-за конфиденциальности и прав.
Например, Elsevier прямо пишет, что допускает использование генеративных инструментов для подготовки рукописи, но только под человеческим контролем, с обязательной проверкой фактов и ссылок, а также с disclosure-стейтментом при подаче, который затем отображается в опубликованной работе. Там же отдельно подчеркивается, что ИИ-инструменты не должны указываться как авторы и не должны заменять человеческое критическое мышление. И еще важный момент: Elsevier не разрешает применять генеративный ИИ для создания или изменения изображений в рукописях (за исключением случаев, когда это часть методологии и корректно описано). Также у Elsevier прописан запрет для рецензентов и редакторов загружать рукописи в генеративные ИИ-сервисы из-за конфиденциальности.
У Springer Nature в публичных редакционных принципах тоже закрепляется общий курс на ответственное использование ИИ и отдельные политики для авторов и рецензентов, включая тезис, что авторство нельзя приписывать ИИ, а рецензентам не стоит загружать рукописи в генеративные инструменты.
Что делать авторам и читателям
Здесь важно разделить две ситуации: добросовестное использование LLM как инструмента и «гонку за публикациями», где LLM становится ускорителем мусора.
Практичный чек-лист для авторов (и для тех, кто заказывает исследования у подрядчиков, например, в корпоративных R&D):
- Использовать LLM как редактора, а не как «соавтора смысла»: правка языка, структуры, кратких резюме, но не генерация результатов и объяснений к данным.
- Ввести внутреннее правило: любая ссылка, вставленная с помощью ИИ, проверяется вручную по DOI/издателю, иначе в тексте легко появятся фантомные источники.
- Хранить «следы производства»: кто писал, какие данные использовались, где лежат сырые результаты, кто проводил анализ, какие версии кода и датасетов.
- Делать disclosure там, где это требуется правилами журнала или конференции, и не пытаться «проскочить», рассчитывая на то, что никто не заметит.
- Если LLM помогал с формулировками в чувствительных разделах (методы, ограничения, статистика), обязательно вычитывать это экспертно: именно там красивые фразы чаще всего скрывают смысловые ошибки.
Для читателей и редакторов корпоративных дайджестов:
- Не доверять гладкости текста как признаку качества: смотреть на дизайн исследования, размер выборки, прозрачность данных, наличие кода и репликаций.
- Проверять, не было ли у работы ретракта, исправлений, выражений озабоченности, а также не фигурирует ли она в обсуждениях по исследовательской добросовестности.
- Относиться к обзорам «на 200 источников» чуть осторожнее: сейчас стало слишком легко собирать такие обзоры автоматически, не понимая предметную область.
От редакции
LLM резко удешевили производство текста, а значит, конкурентное преимущество смещается от умения написать красиво к «мению доказать, что написанное опирается на реальность: данные, воспроизводимость, прозрачные методы, внятные ограничения. Следующий тренд, который уже просматривается, это рост рынка инструментов научной верификации: детектирование фабрик статей, автоматические проверки ссылок и ретрактов, форензика изображений, скоринг рукописей на «подозрительные» паттерны и, главное, сервисы для редакторов, которые экономят время без подмены экспертизы.
Как использовать это на практике:
- Если работаете в науке или R&D, стоит заранее подготовиться к «комплаенсу по ИИ»: простая политика раскрытия, правила хранения исходников и единый формат приложений с данными и кодом станут конкурентным плюсом.
- Если делаете медиа, образовательный проект или аналитический продукт, можно выигрывать качеством: объяснять читателю, почему исследованию можно доверять, и показывать метод проверки, а не просто пересказывать выводы.
- Если строите продукт для рынка научных коммуникаций, окно возможностей сейчас максимально открыто: издателям и университетам нужны не очередные генераторы текста, а инфраструктура доверия вокруг публикационного процесса.
Подписывайся, чтобы воочию наблюдать, как новый мир вырастает на развалинах старого. Будь частью этого процесса, а не жертвой перемен.