Недавно мне довелось выступить на Всероссийской научной конференции с международным участием «Источник, историография, нарратив в осмыслении Древней Руси».
Тема моего доклада звучала довольно академично: «Характер восприятия и изложения фундаментальных вопросов Древней Руси современными отечественными и зарубежными нейросетями».
Если перевести на обычный русский язык, то я решил проверить: насколько вообще можно доверять нейросетям, когда речь идет об истории. Хотел бы поделиться своими выводами и с вами.
Для своего эксперимента я выбрал три нейросети:
- ChatGPT (США)
- DeepSeek (Китай)
- Алиса (Россия)
Всем им задавались одни и те же вопросы:
- Существовал ли Рюрик и кем он был по происхождению?
- Корректно ли называть период XII–XV веков «феодальной раздробленностью»?
При этом, каждый вопрос задавался одинаково трижды на русском языке и трижды одинаково на английском.
Какие выводы можно сделать
Самое неожиданное для меня открытие в том, что ни одна нейросеть не дала полностью одинаковый ответ дважды:
Даже когда вопрос задавался повторно слово в слово в новом чате, менялись аргументы, список историков, на которых ссылается, набор источников и степень уверенности в выводах.
Получается интересная ситуация. В практической ситуации, когда студент спрашивает нейросеть о каком-либо историческом событии, он получает не «правильный ответ», а одну из возможных версий ответа, сформированную алгоритмом в данный момент времени.
Кто оказался самым осторожным из нейросетей
Наиболее академичным участником эксперимента неожиданно оказался ChatGPT. Почему так? Его ответы чаще других не только содержали, но и разделяли:
• летописные сведения;
• археологические данные;
• лингвистические аргументы;
• современные историографические дискуссии.
Если вопрос спорный, то ChatGPT обычно прямо пишет, что вопрос остается дискуссионным. И, на мой взгляд, с точки зрения научной добросовестности это сильная сторона.
Но давайте не будем думать, что мне тут нахваливать одну нейросеть только хочется. У того же GPT есть и обратная сторона. Такая осторожность делает ответы менее определенными и менее интересными для массового читателя. Он сужает тему до главных версий и весь спектр мнений от него уже не дождешься.
Кто оказался самым разговорчивым
DeepSeek обычно выдавал самые объемные ответы. Он приводил множество версий происхождения Рюрика, дополнительные гипотезы и неожиданные детали. Но объем информации не всегда означает ее надежность. Об этом скажу чуть ниже.
А что показала Алиса?
Алиса выглядела скорее как хороший научно-популярный рассказчик. Ее ответы были очень легкими и понятными, хорошо структурированными и удобными для обычного читателя.
Однако список источников иногда включал Дзен, образовательные сайты и популярные статьи, которые трудно представить в качестве полноценной научной базы.
Для знакомства с темой вполне неплохо. Но для серьезного исследования этого увы (к счастью) недостаточно.
Как нейросети работают с источниками?
Это очень важный момент. Нейросети демонстрируют очень разный уровень использования источников. DeepSeek обычно выдавал самый объёмный материал. Но большое количество информации не всегда означает высокую научную надёжность. Встречались спорные источники и менее строгий подход к исторической критике. У Алисы и вовсе с источниковой базой феерия красок - там и статьи на Дзене, и научные исследования и какие-то сайты, научными которые назвать ну никак нельзя. ChatGPT лучше остальных понял, что дело серьезное и старался приводить сведения из работ ученых, обозначая их фамилии и работы. Я даже прошелся по статьям в Википедии проверить, не копирует ли он просто оттуда источники. Оказалось, что ссылается и на те, которых не так просто найти.
Имеет значение язык, на котором задан вопрос
Один и тот же вопрос на русском и английском языках давал разные ответы. На английском все ChatGPT и DeepSeek чаще ссылались на западную историографию и значительно увереннее поддерживали норманнскую версию происхождения Рюрика. Алиса же предпочла отвечать на русском даже на вопросы, заданные на английском (молодец, патриот )).
На русском языке чаще вспоминались Ломоносов, Гедеонов, антинорманнские концепции и отечественная историографическая традиция. Фактически язык вопроса менял историческую оптику ответа. Поэтому имеет большое значение кто и как спросил.
Это, возможно, один из самых главных результатов всего исследования.
Какие выводы можем сделать?
После эксперимента я не стал противником нейросетей. Напротив. Они способны экономить огромное количество времени, помогать искать литературу, структурировать материал и быстро знакомить человека с новой темой.
Но появилась другая мысль. Ее суть в том, что главная опасность нейросетей состоит не в недостатке информации, а в создании убедительного текста, который выглядит научным даже тогда, когда отдельные его элементы ошибочны.
Важно помнить, что чем лучше работают нейросети, тем важнее становятся навыки критического мышления, проверки источников и понимания историографии. И тут уже имеет значение тот человек, который работает с нейросетью.
Поэтому сегодня историку недостаточно знать прошлое. Ему нужно еще уметь проверять того нового посредника между собой и историческим знанием, которым становится искусственный интеллект. И здесь возникает вопрос, на который нужно ответь каждому и из нас и науке вцелом:
Если нейросеть становится посредником между исследователем и прошлым, то кто в итоге является субъектом исторической интерпретации — человек или алгоритм?
PS. В данной работе мы не будем отвечать на вопрос, кто был более прав из нейросетей, так как этот ответ потребовал бы занять определенную позицию по сути каждого вопроса, что является полем для отдельного исследования.
Спасибо за прочтение. Поддержите лайком и комментарием. Будем и дальше вести диалог и с людьми, и с нейросетями.