Найти в Дзене

Люди переоценивают надёжность языковых инструментов с искусственным интеллектом: добавление фраз, выражающих неуверенность, может помочь

По мере того, как инструменты искусственного интеллекта, такие как ChatGPT, становятся всё более распространёнными в повседневных задачах и процессах принятия решений, способность доверять их ответам и распознавать ошибки в них становится критически важной. Новое исследование, проведённое когнитивистами и специалистами по информатике из Калифорнийского университета в Ирвайне, показало, что люди в целом переоценивают точность результатов работы больших языковых моделей (LLM). Но с некоторыми доработками, говорит ведущий автор исследования Марк Стейверс, профессор когнитивных наук и заведующий кафедрой, эти инструменты можно обучить давать объяснения, которые позволят пользователям оценивать неопределённость и лучше отличать факты от вымысла. «Существует разрыв между тем, что знают большие языковые модели, и тем, что, по мнению людей, они знают, — сказал Стейверс. — Мы называем это разрывом в калибровке. В то же время существует разрыв в распознавании — насколько хорошо люди и модели мог
«Существует разрыв между тем, что знают LLM, и тем, что, по мнению людей, они знают», — говорит Марк Стейверс. Фото: Стив Зилиус/UCI
«Существует разрыв между тем, что знают LLM, и тем, что, по мнению людей, они знают», — говорит Марк Стейверс. Фото: Стив Зилиус/UCI

По мере того, как инструменты искусственного интеллекта, такие как ChatGPT, становятся всё более распространёнными в повседневных задачах и процессах принятия решений, способность доверять их ответам и распознавать ошибки в них становится критически важной. Новое исследование, проведённое когнитивистами и специалистами по информатике из Калифорнийского университета в Ирвайне, показало, что люди в целом переоценивают точность результатов работы больших языковых моделей (LLM).

Но с некоторыми доработками, говорит ведущий автор исследования Марк Стейверс, профессор когнитивных наук и заведующий кафедрой, эти инструменты можно обучить давать объяснения, которые позволят пользователям оценивать неопределённость и лучше отличать факты от вымысла.

«Существует разрыв между тем, что знают большие языковые модели, и тем, что, по мнению людей, они знают, — сказал Стейверс. — Мы называем это разрывом в калибровке. В то же время существует разрыв в распознавании — насколько хорошо люди и модели могут различать правильные и неправильные ответы. В нашем исследовании рассматривается, как можно сократить эти разрывы».

В настоящее время большие языковые модели, в том числе ChatGPT, не предоставляют автоматически в ответах информацию, которая указывала бы на уровень уверенности инструмента в своей точности. Это может вводить пользователей в заблуждение, говорит Стейверс, поскольку ответы часто могут казаться уверенными, но ошибочными.

Учитывая это, исследователи создали набор онлайн-экспериментов, чтобы получить представление о том, как люди и LLM воспринимают ответы, сгенерированные искусственным интеллектом. Они набрали 301 участника, говорящего на английском языке как на родном, в США, 284 из которых предоставили демографические данные. Из них 51% — женщины, 49% — мужчины, средний возраст — 34 года.

Участникам случайным образом были присвоены наборы из 40 вопросов с несколькими вариантами ответов и краткими ответами из набора данных «Массовое многозадачное понимание языка» — обширного банка вопросов разной степени сложности от школьного до профессионального уровня, охватывающего темы в области естественных наук, гуманитарных наук, социальных наук и других областей.

В первом эксперименте участникам предоставлялись ответы на каждый вопрос, сгенерированные LLM по умолчанию, и они должны были оценить вероятность того, что ответы были правильными. Исследовательская группа обнаружила, что участники постоянно переоценивали надёжность результатов LLM; стандартные объяснения не позволяли им оценить вероятность правильности ответов, что приводило к несоответствию между восприятием и реальностью в отношении точности LLM.

«Эта тенденция к чрезмерной уверенности в возможностях LLM вызывает серьёзную обеспокоенность, особенно в сценариях, где критически важные решения зависят от информации, сгенерированной LLM, — сказал он. — Неспособность пользователей определять надёжность ответов LLM не только снижает полезность этих моделей, но и создаёт риски в ситуациях, когда понимание пользователями точности модели имеет решающее значение».

В следующем эксперименте использовался тот же формат ответов на 40 вопросов, предоставляемый LLM, но вместо одного ответа LLM по умолчанию на каждый вопрос исследовательская группа изменила формулировки так, чтобы каждый вариант ответа включал формулировку неопределённости, связанную с внутренней уверенностью LLM.

Фразы указывали на уровень уверенности LLM в правильности ответа: низкий («Я не уверен, что ответ — A»), средний («Я почти уверен, что ответ — A») и высокий («Я уверен, что ответ — A») — наряду с пояснениями разной длины.

Исследователи обнаружили, что формулировки, указывающие на неопределённость, сильно влияют на уверенность людей. Объяснения LLM с низкой степенью уверенности соответствовали значительно более низкой уверенности людей в точности по сравнению с объяснениями, отмеченными LLM как средние, и аналогичная закономерность наблюдалась для средних и высоких степеней уверенности.

Кроме того, длина объяснений также повлияла на доверие людей к ответам LLM. Участники были более уверены в более длинных объяснениях, чем в коротких, даже если дополнительная длина не повышала точность ответов.

В совокупности эти результаты подчёркивают важность информирования о неопределённости и влияние объёма пояснений на доверие пользователей к системам, помогающим принимать решения с помощью ИИ, — сказал Стейверс.

«Изменяя формулировки ответов LLM, чтобы они лучше отражали уверенность модели, пользователи могут повысить точность оценки надёжности LLM и лучше различать правильные и неправильные ответы», — сказал он. «Это подчёркивает необходимость прозрачной коммуникации со стороны LLM и указывает на необходимость дополнительных исследований того, как объяснения модели влияют на восприятие пользователей.»