Как ИИ приукрашивает научные факты — и почему это может быть опасно
Учёные пишут: «Лекарство помогло 55% пациентов».
ИИ, желая быть понятным, делает пересказ: «Лекарство помогает большинству пациентов».
А потом где-то появляется заголовок: «Новое средство спасает всех!»
Так из аккуратного результата рождается красивая — но неверная — новость.
Весной 2025 года исследователи Уве Петерс и Бенджамин Чин-Ий опубликовали в Royal Society Open Science работу, где проверили: насколько честно большие языковые модели (LLM) пересказывают научные статьи.
Оказалось, что ИИ действительно часто искажает смысл — не специально, а «из лучших побуждений».
Как ИИ всё упрощает
Авторы протестировали 10 популярных моделей — ChatGPT, Claude, DeepSeek, LLaMA и другие.
Им дали почти 5000 научных текстов по медицине и науке и попросили сделать короткие саммари.
Даже когда моделей просили «писать точно», они всё равно расширяли выводы.
Иногда чуть-чуть, а иногда — до полного абсурда.
Учёные выделили три вида таких «обобщений»:
1. Generic generalizations — исчезают цифры.
Было «55% пациентов», стало «большинство пациентов».
2. Present tense generalizations — прошлое превращается в настоящее.
Было «лечение оказалось эффективным», стало «лечение эффективно».
3. Action-guiding generalizations — описание превращается в рекомендацию.
Было «КПТ помогает пациентам с ОКР», стало «КПТ следует назначать при ОКР».
Каждый из этих трюков делает вывод увереннее, чем он есть на самом деле.
Новейший — значит хуже
Результаты оказались парадоксальными: чем новее модель, тем чаще она искажала выводы.
Старые GPT и Claude пересказывали ближе к оригиналу,
а новые ChatGPT-4o, DeepSeek и LLaMA-3.3 делали выводы шире, чем позволяли данные.
В среднем от 26 до 73% пересказов содержали чрезмерные обобщения.
А если сравнить с людьми, то ИИ делает такие ошибки почти в 5 раз чаще.
Даже специальная просьба «пиши максимально точно» лишь усиливала эффект —
модели становились увереннее, но не точнее.
Почему это важно
Для науки и особенно медицины это не мелочь.
Одно дело — ошибиться в пересказе статьи про физику элементарных частиц,
и совсем другое — неверно понять результаты клинического исследования.
Если врач читает саммари от ИИ, где написано «препарат эффективен»,
он может не заметить, что в оригинале значилось
«эффективен только у молодых пациентов без сопутствующих заболеваний».
Так рождаются ошибочные решения, основанные на красивых, но ложных обобщениях.
Авторы называют это generalization bias —
склонность ИИ «думать шире, чем надо».
А вместе с человеческой доверчивостью это становится топливом для
иллюзии понимания: кажется, что мы всё поняли,
а на деле видим только упрощённую версию правды.
Что с этим делать
1. Понизить “температуру” модели.
Чем ниже параметр temperature, тем меньше фантазии и обобщений.
("Температура" - настройка степени креативности LLM)
2. Не писать “будь точным”.
В экспериментах просьба «не искажай» приводила к большему числу искажений.
3. Просите контекст.
Формулируйте запрос так:
«Опиши результаты в прошедшем времени и уточни, для кого они справедливы.»
4. Выбирайте модель.
В исследовании наименее склонным к преувеличениям оказался Claude.
5. Проверяйте источники.
Если от саммари зависит решение — прочитайте оригинал.
Даже ИИ может ошибиться, но ваша критичность — нет.
Финал
ИИ может быть отличным помощником,
но не стоит путать его с источником истины.
Он не чувствует осторожности и не знает цены ошибки.
Если он звучит слишком уверенно — стоит насторожиться.
Красивая простота часто скрывает сложность,
и только образование и критическое мышление
помогают увидеть, где заканчивается знание
и начинается «приукрашенная» правда.
Источники
[1] Peters U., Chin-Yee B. (2025). Generalization bias in large language model summarization of scientific research. Royal Society Open Science.
https://royalsocietypublishing.org/doi/10.1098/rsos.241776
[2] Messeri L., Crockett M.J. (2024). Artificial intelligence and illusions of understanding in scientific research. Nature.
https://www.nature.com/articles/s41586-024-07146-0
[3] Menz B.D. et al. (2024). Safeguards and transparency measures of large language models against health disinformation. BMJ.
https://www.bmj.com/content/384/bmj-2023-078538
[4] Gao C.A. et al. (2023). Comparing scientific abstracts generated by ChatGPT to real abstracts. NPJ Digital Medicine.
https://www.nature.com/articles/s41746-023-00819-6
[5] Birhane A., Kasirzadeh A., Leslie D., Wachter S. (2023). Science in the age of large language models. Nature Reviews Physics.
https://www.nature.com/articles/s42254-023-00581-4
[6] Binz M. et al. (2025). How should the advancement of large language models affect the practice of science? PNAS.
https://www.pnas.org/doi/10.1073/pnas.2401227121
[7] Lyu Q. et al. (2023). Translating radiology reports into plain language using ChatGPT and GPT-4. Visual Computing for Industry, Biomedicine, and Art.
https://vciba.springeropen.com/articles/10.1186/s42492-023-00136-5