На конференции AI NeurIPS, посвящённой ИИ, группа исследователей представила результаты работы по оценке способности ChatGPT и других нейросетей разбираться в истории. Как оказалось, они этого почти не умеют, несмотря на знание множества исторических фактов.
Для тестирования нейросетей исследователи разработали свой бенчмарк Hist-LLM, который основывается на базе исторических данных Seshat Global History Databank и включает в себя сложные вопросы по истории. В тесте участвовали нейросети Google Gemini, Llama и OpenAI GPT-4. Лучше всех справилась модель GPT-4 Turbo, но даже у неё результат составил только 46%, что почти совпадает с процентом случайного угадывания правильного ответа.
Например, нейросеть должна была ответить, использовалась ли броня в определённый период в древнем Египте, тогда как на самом деле она появилась позже на 1500 лет. В этом вопросе нейросеть ответила неправильно. Соавтор статьи и доцент компьютерных наук в Университетском колледже Лондона Мария дель Рио-Чанона и другие исследователи к числу причин ошибок относят следующие:
- склонность экстраполировать данные;
- сложность с извлечением малоизвестных фактов;
- предвзятость в тренировочных датасетах.
Первая причина означает, что чем чаще в истории встречается какой-то факт, тем больше вероятность, что нейросеть отнесёт её к тому периоду времени, когда он неактуален. Вторая причина частично связана с первой и означает, что нейросетям не хватает «глубины понимания» истории. Третья причина основана на неверных исходных данных, на которых обучали нейросеть. Несмотря на ошибки, учёные видят потенциал нейросетей в роли помощников по историческим исследованиям.