Найти в Дзене
POCUS MOSCOW

Не все чат-боты одинаково полезны

Как ИИ приукрашивает научные факты — и почему это может быть опасно Учёные пишут: «Лекарство помогло 55% пациентов». ИИ, желая быть понятным, делает пересказ: «Лекарство помогает большинству пациентов». А потом где-то появляется заголовок: «Новое средство спасает всех!» Так из аккуратного результата рождается красивая — но неверная — новость. Весной 2025 года исследователи Уве Петерс и Бенджамин Чин-Ий опубликовали в Royal Society Open Science работу, где проверили: насколько честно большие языковые модели (LLM) пересказывают научные статьи. Оказалось, что ИИ действительно часто искажает смысл — не специально, а «из лучших побуждений». Авторы протестировали 10 популярных моделей — ChatGPT, Claude, DeepSeek, LLaMA и другие. Им дали почти 5000 научных текстов по медицине и науке и попросили сделать короткие саммари. Даже когда моделей просили «писать точно», они всё равно расширяли выводы. Иногда чуть-чуть, а иногда — до полного абсурда. Учёные выделили три вида таких «обобщений»: 1. Gen
Оглавление

Как ИИ приукрашивает научные факты — и почему это может быть опасно

Когда бот знает лучше
Когда бот знает лучше

Учёные пишут: «Лекарство помогло 55% пациентов».

ИИ, желая быть понятным, делает пересказ: «Лекарство помогает большинству пациентов».

А потом где-то появляется заголовок: «Новое средство спасает всех!»

Так из аккуратного результата рождается красивая — но неверная — новость.

Весной 2025 года исследователи Уве Петерс и Бенджамин Чин-Ий опубликовали в Royal Society Open Science работу, где проверили: насколько честно большие языковые модели (LLM) пересказывают научные статьи.

Оказалось, что ИИ действительно часто искажает смысл — не специально, а «из лучших побуждений».

Как ИИ всё упрощает

-2

Авторы протестировали 10 популярных моделей — ChatGPT, Claude, DeepSeek, LLaMA и другие.

Им дали почти 5000 научных текстов по медицине и науке и попросили сделать короткие саммари.

Даже когда моделей просили «писать точно», они всё равно расширяли выводы.

Иногда чуть-чуть, а иногда — до полного абсурда.

Учёные выделили три вида таких «обобщений»:

1. Generic generalizations — исчезают цифры.

Было «55% пациентов», стало «большинство пациентов».

2. Present tense generalizations — прошлое превращается в настоящее.

Было «лечение оказалось эффективным», стало «лечение эффективно».

3. Action-guiding generalizations — описание превращается в рекомендацию.

Было «КПТ помогает пациентам с ОКР», стало «КПТ следует назначать при ОКР».

Каждый из этих трюков делает вывод увереннее, чем он есть на самом деле.

Новейший — значит хуже

-3

Результаты оказались парадоксальными: чем новее модель, тем чаще она искажала выводы.

Старые GPT и Claude пересказывали ближе к оригиналу,

а новые ChatGPT-4o, DeepSeek и LLaMA-3.3 делали выводы шире, чем позволяли данные.

В среднем от 26 до 73% пересказов содержали чрезмерные обобщения.

А если сравнить с людьми, то ИИ делает такие ошибки почти в 5 раз чаще.

Даже специальная просьба «пиши максимально точно» лишь усиливала эффект —

модели становились увереннее, но не точнее.

Почему это важно

-4

Для науки и особенно медицины это не мелочь.

Одно дело — ошибиться в пересказе статьи про физику элементарных частиц,

и совсем другое — неверно понять результаты клинического исследования.

Если врач читает саммари от ИИ, где написано «препарат эффективен»,

он может не заметить, что в оригинале значилось

«эффективен только у молодых пациентов без сопутствующих заболеваний».

Так рождаются ошибочные решения, основанные на красивых, но ложных обобщениях.

Авторы называют это generalization bias

склонность ИИ «думать шире, чем надо».

А вместе с человеческой доверчивостью это становится топливом для

иллюзии понимания: кажется, что мы всё поняли,

а на деле видим только упрощённую версию правды.

Что с этим делать

-5

1. Понизить “температуру” модели.

Чем ниже параметр temperature, тем меньше фантазии и обобщений.

("Температура" - настройка степени креативности LLM)

2. Не писать “будь точным”.

В экспериментах просьба «не искажай» приводила к большему числу искажений.

3. Просите контекст.

Формулируйте запрос так:

«Опиши результаты в прошедшем времени и уточни, для кого они справедливы.»

4. Выбирайте модель.

В исследовании наименее склонным к преувеличениям оказался Claude.

5. Проверяйте источники.

Если от саммари зависит решение — прочитайте оригинал.

Даже ИИ может ошибиться, но ваша критичность — нет.

Финал

ИИ может быть отличным помощником,

но не стоит путать его с источником истины.

Он не чувствует осторожности и не знает цены ошибки.

Если он звучит слишком уверенно — стоит насторожиться.

Красивая простота часто скрывает сложность,

и только образование и критическое мышление

помогают увидеть, где заканчивается знание

и начинается «приукрашенная» правда.

Источники

[1] Peters U., Chin-Yee B. (2025). Generalization bias in large language model summarization of scientific research. Royal Society Open Science.

https://royalsocietypublishing.org/doi/10.1098/rsos.241776

[2] Messeri L., Crockett M.J. (2024). Artificial intelligence and illusions of understanding in scientific research. Nature.

https://www.nature.com/articles/s41586-024-07146-0

[3] Menz B.D. et al. (2024). Safeguards and transparency measures of large language models against health disinformation. BMJ.

https://www.bmj.com/content/384/bmj-2023-078538

[4] Gao C.A. et al. (2023). Comparing scientific abstracts generated by ChatGPT to real abstracts. NPJ Digital Medicine.

https://www.nature.com/articles/s41746-023-00819-6

[5] Birhane A., Kasirzadeh A., Leslie D., Wachter S. (2023). Science in the age of large language models. Nature Reviews Physics.

https://www.nature.com/articles/s42254-023-00581-4

[6] Binz M. et al. (2025). How should the advancement of large language models affect the practice of science? PNAS.

https://www.pnas.org/doi/10.1073/pnas.2401227121

[7] Lyu Q. et al. (2023). Translating radiology reports into plain language using ChatGPT and GPT-4. Visual Computing for Industry, Biomedicine, and Art.

https://vciba.springeropen.com/articles/10.1186/s42492-023-00136-5