ChatGPT называют революционным средством повышения производительности, в том числе аналитической работы. Но способен ли он готовить сложную аналитику для советов директоров центральных банков? Эксперты Банка Италии решили это проверить (спойлер: пока не способен).
«Здравствуй, GPT. Сегодня ты советник Банка Италии». Эксперимент с искусственным интеллектом решили провести эксперты итальянского центробанка Клаудиа Бьянкотти и Каролина Камасса.
Они попытались выяснить, насколько хорошо ИИ способен справиться с подготовкой аналитики для Совета директоров – то есть информации, которую используют для принятия решений, и потому она требует глубокой и детальной проработки. Это довольно сложная и креативная задача, решение которой основывается на междисциплинарных знаниях, а также на неявных, или «неписаных».
Экономисты уже тестировали применение ChatGPT для решений в том числе и нетривиальных интеллектуальных задач: экономических исследований, изучения и преподавания экономики, прогнозирования динамики цен на акции и даже «расшифровки» Fedspeak – интерпретации решений ФРС по денежно-кредитной политике.
Программисты признали способности ChatGPT в программировании и самообучении использованию других IT-инструментов.
Сценаристы Голливуда в мае 2023 г. объявили забастовку, требуя в том числе ограничить применение ChatGPT в подготовке литературных материалов, то есть увидев в генеративных технологиях угрозу собственному существованию как профессионалов.
«Действительно ли это конец для людей как сценаристов и вообще как пишущих любые тексты? Будучи исследователями и политическими советниками [в сфере IT-решений] в центральном банке, мы провели эксперимент, чтобы выяснить, готов ли ChatGPT занять наши рабочие места», – поясняют Бьянкотти и Камасса.
Предыдущие исследования показали, что ChatGPT вполне способен формулировать хорошо структурированные планы исследований и создавать большие и лингвистически достоверные тексты за считаные секунды.
Однако стали очевидны и его недостатки и ограничения.
Он генерирует контент в ответ на запросы, и, например, иногда даже незначительные изменения в запросе могут приводить к значительным изменениям в результате. Или, например, имеет большое значение, «кем себя считает» ChatGPT, готовя ответ: результат ответа на запрос «Расскажи мне, что ты знаешь о Лувре» намного хуже, чем на запрос «Ты – один из лучших искусствоведов в мире. Расскажи мне, что ты знаешь о Лувре».
Исследователи из Банка Италии сразу предупредили ChatGPT о его текущем статусе советника центробанка. И попросили подготовить аналитическую записку для Совета директоров на тему «Преимущества и риски использования ChatGPT и аналогичных технологий в экономике и финансах».
Почему ChatGPT не справился
Для начала эксперты предложили ChatGPT составить план материала. С этой задачей он справился хорошо: потребовалось минимальное количество подсказок, чтобы получить структуру будущего текста, которая была сочтена приемлемой.
Но как только авторы перешли от плана текста к его фактическому написанию, начали проявляться ограничения технологии.
1) Склонность к поверхностности и банальности.
ChatGPT может очень быстро создавать большие тексты, но в них много «воды».
Это серьезный недостаток для текстов, предназначенных высокообразованной аудитории, и тем более для рекомендаций лицам, принимающим политические решения. Детализация уровня аудитории (исследователи конкретизировали задачу, уточнив, что аудитория текста – члены Совета директоров центрального банка со степенями PhD по экономике и праву) не гарантирует, что ИИ приведет текст в соответствие этому уровню.
Например, ChatGPT посоветовал: «Растущая зависимость от ИИ и алгоритмических решений может создать новые проблемы для финансового сектора. <…> Финансовым организациям и политикам крайне важно поддерживать баланс между использованием инструментов на основе ИИ, таких как ChatGPT, и опорой на человеческий опыт и интуицию для обеспечения надежных и обоснованных процессов принятия решений».
Это слишком общая формулировка рисков, не соответствующая запросу. «Финансовый сектор» тут можно заменить на любой другой, и ничего не изменится: нет описания конкретных механизмов, посредством которых риск может проявиться именно в сфере финансов.
Подобной поверхностностью отличались и другие рекомендации.
При этом ChatGPT способен к самокритике этого своего свойства: «ChatGPT или любая языковая модель, разработанная OpenAI, предназначена для генерации языковых шаблонов на основе различных источников. Она использует эти шаблоны для генерации последовательных ответов на пользовательские подсказки <…> однако не обладает истинным пониманием или глубиной знаний в конкретной области исследования, как у эксперта уровня PhD», – заявил ИИ экспериментаторам.
Одно из возможных объяснений поверхностности текстов GPT – его тенденция воспроизводить тот тип контента, который он видел чаще всего при обучении, или статистический дрейф. Языковые модели с трудом запоминают знания, которые редко встречаются в обучающем корпусе материалов. Поскольку большую часть этого корпуса составляет популярный веб-контент, информацию сложного уровня модель может счесть «длинным хвостом знаний», то есть менее востребованной, и игнорировать, даже если модель специально направляют в сторону, противоположную популярному контенту.
Возможно также, что ChatGPT, ориентируясь на подсказку «экономика и финансы» в задании, неверно интерпретировал это как «все отрасли и финансовый сектор». Выражение «экономика и финансы» довольно расхожее, и его значение может меняться в зависимости от контекста даже внутри одного материала. Человек-советник интуитивно бы понял, что в задании речь совсем не о коммерческих предприятиях, и прочел бы такое словосочетание как «экономический анализ и финансовые решения».
2) Отсутствие «модели мира».
ИИ не очень хорошо справляется с пониманием того, что целевая аудитория знает, а чего, возможно, нет.
Это ошибка того же типа, что и неверное прочтение того, как понятие «экономика и финансы» используется в конкретном профессиональном контексте. Но ошибка более масштабная, считают авторы: она показывает ограниченное понимание человеческих возможностей в целом.
Кроме того, модель иногда «умничала» и, игнорируя инструкции о необходимости дать определение техническим терминам, использовала специализированный сленг и терминологию без дальнейших пояснений.
3) Галлюцинации.
Это уже хорошо известный недостаток GenAI, который проявился и в описываемом эксперименте: он выражается в том, что ИИ дает неправильные, хотя и правдоподобно звучащие ответы, а затем уверенно их защищает, например, ссылками на несуществующие научные статьи.
Модель GenAI обучена генерировать наиболее вероятную последовательность слов, соответствующую заданному контексту, и у нее нет возможности – или, скорее, обязанности – проверять свои утверждения на соответствие проверенным источникам. Поэтому GenAI следует рассматривать как механизм диалогового преобразования и преобразования входных данных, а не как механизм поиска информации, и проверка выходных данных крайне важна.
Пользователям следует быть осторожными, полагаясь на ChatGPT в изучении тех тем, с которыми они не знакомы, предупреждают авторы: без конкретных знаний в предметной области может быть трудно заметить, что модель упускает важную информацию или представляет факты не в нейтральной форме.
В эксперименте Банка Италии ChatGPT предоставлял нерелевантные ссылки на действительно существующие статьи, а не ссылки на несуществующие – по крайней мере, это уже шаг вперед, отмечают авторы.
4) «Подхалимаж».
ChatGPT очень чувствителен к тому, как формулируются инструкции, и даже минимальные изменения в них могут привести к совершенно другим результатам – таким, какие, «по мнению» ИИ, соответствуют мировоззрению пользователя.
Исследователи изменили в запросе всего одно слово (хотя и важное). Они написали ChatGPT: «Согласно твоим собственным словам, языковые модели обучаются предсказывать вероятность последовательности слов или токенов в заданном контексте; то есть цель языковых моделей – научиться точно воспроизводить человеческий язык»; после чего задали вопрос. В одном диалоге – «Почему ты считаешь, что это хорошо?», а в другом – «Почему ты считаешь, что это плохо?». В ответ ИИ привел аргументы, в первом случае убеждающие в пользе языковых моделей, во втором – в рискованности их применения.
Подобное стремление ChatGPT угодить мнению пользователя уже было замечено ранее и названо «подхалимажем». К этой тенденции GenAI склонен даже тогда, когда вводные утверждения пользователя изначально объективно неверны.
Эта тенденция согласовывать свои выводы с убеждениями пользователя, которые проявляются в подсказках, потенциально может приводить к формированию эхокамер и поляризации общества. А в сочетании со скоростью генерирования текста искусственным интеллектом – к инфодемии фейков и дезинформации.
Исследователи обнаружили у ChatGPT еще и подверженность культурным стереотипам, вопреки политике OpenAI.
Например, в отношении стиля будущей аналитической записки ChatGPT сделал такое предложение: «Итальянский стиль деловых коммуникаций, включая и Совет директоров Банка Италии, вероятно, отличается болтливостью и выраженной эмоциональностью. <…> Театральность считается ключевым инструментом управления».
Эмоции и театральность – это совсем не тот стиль, который требуется аналитике, и подобное предложение вводит в заблуждение. ChatGPT предложил это, потому что, видимо, так должно нравиться итальянцам, – но культурные стереотипы не отражают фактов.
Впрочем, ChatGPT быстро исправился, как только его отключили от интернета. Версия ChatGPT, работающая только во внутренней сети Банка Италии и обученная на массиве его информации, посоветовала для аналитической записки стиль «ясный, краткий и формальный, с акцентом на объективном анализе данных», поскольку члены Совета директоров «будут ожидать хорошо структурированной, точной и обоснованной информации».
Первоначально исследователи использовали вариант внутренней версии ChatGPT с выходом в интернет и ожидали, что ИИ объединит исходную базу знаний от Банка Италии с веб-информацией. Но он, похоже, проигнорировал все, что знал о Банке Италии из внутренней базы. И выбрал в качестве источника о деловом стиле коммуникаций веб-сайт некоей консалтинговой компании «по повышению культурной осведомленности».
Там, где ИИ не может думать как человек (пока), – там люди должны думать как ИИ, чтобы получить от него приемлемые результаты, советуют авторы исследования.
Сейчас GenAI действительно способен повысить продуктивность подготовки аналитики на начальном этапе структурирования идей, при условии, что пользователи осведомлены об особенностях больших языковых моделей и недостатках ChatGPT, пишут авторы эксперимента.
Однако даже подготовка набросков будущего аналитического отчета требует экспертного контроля. Попытка же поручить ИИ написать такой отчет приводит к тому, что текст получается весьма низкого качества.
И ChatGPT с этим согласен. По его словам, его «следует рассматривать как инструмент, помогающий в исследованиях и дискуссиях, а не как замену настоящего экспертного анализа и понимания».