138,6 тыс подписчиков

Чем крупнее модель ИИ, тем больше неверных ответов она даёт

27 сентября 202427 сен 2024

2 мин

Более крупные голосовые ИИ все чаще дают неверные ответы. К такому выводу пришли исследования точности больших языковых моделей. Для этого исследователи внимательно изучили три основных LLM: GPT от OpenAI, Llama и Bloom, модель с открытым исходным кодом, разработанную академической группой BigScience.

В своем исследовании Хосе Эрнандес-Оралло из Валенсийского научно-исследовательского института искусственного интеллекта в Испании и его коллеги проанализировали упомянутые выше ИИ на наличие ошибок в их ответах.

Для этого они сначала исследовали раннюю версию соответствующей языковой модели. Затем старую модель сравнивали с более современной, улучшенной версией. В новые версии было добавлено значительно больше данных для уточнения ответов.

Ученые обнаружили, что улучшенные модели ИИ, как и ожидалось, дают более точные ответы. Исследователи связывают это с обратной связью от людей, которая помогает уточнить варианты реагирования ИИ. Однако более точные ответы применимы только к случаям, когда ИИ действительно смог ответить на заданный вопрос.

По данным Nature, Эрнандес-Оралло и его команда также обнаружили, что «среди неточных ответов увеличилась доля неправильных ответов». Это происходит потому, что модели реже отвечают, что они чего-то не знают или меняют тему.

«Сегодня чат-боты отвечают практически на всё. А это означает больше неправильных ответов», — объясняет Эрнандес-Оралло.

Склонность чат-ботов выражать мнения, выходящие за пределы их собственных знаний, усилилась, рассказал Майк Хикс журналу Nature. Он является философом науки и технологий в Университете Глазго.

«В результате обычные пользователи, скорее всего, переоценивают возможности чат-ботов, и это опасно», — отмечает Эрнандес-Оралло.

Ученые задавали чат-ботам тысячи вопросов. Например, задавались вопросы по арифметике, анаграммам, географии и естественным наукам. Также была проверена способность чат-ботов изменять информацию, например, организовывать список в алфавитном порядке.

Результат: улучшенные ИИ стали реже избегать сложных вопросов, а пытались на них ответить. GPT-4 указан здесь в качестве примера. Nature пишет:

«Доля неправильных ответов увеличивалась по мере увеличения размера моделей, достигая более 60 процентов в нескольких улучшенных моделях».

Это не означает, что более крупные чат-боты обычно дают 60 процентов неверных ответов. Это доля неправильных ответов на вопросы, на которые ИИ не может ответить. Если старые версии ИИ склонны писать «Я не знаю» или уклоняться от вопроса, то ИИ с большим пулом обучающих данных «выдумывает» ложную информацию.

Чем крупнее модель ИИ, тем больше неверных ответов она даёт

📃 Читайте далее на сайте