Исследователи 10 раз задавали ChatGPT одни и те же вопросы и получили 10 разных ответов.
Чат-боты могут давать довольно убедительные ответы, но, как показывает практика, с трудом отличают правду от лжи. Профессор Вашингтонского государственного университета Месут Чичек решил проверить ChatGPT. Он предлагал искусственному интеллекту гипотезы, основанные на исследованиях, и просил определить, подтверждены ли они учеными. Бот, по сути, должен был оценить, являются ли утверждения истинными или ложными.
Точность ChatGPT растет, но неидеальна
В общей сложности профессор Чичек и его команда проверили почти 800 гипотез, представив каждую из них 10 раз. Это должно было помочь в оценке того, насколько согласованными будут ответы бота.
В первом эксперименте 2024 года ChatGPT правильно ответил в 76,5% случаев. Когда исследование повторили в 2025-м, точность немного повысилась — до 80%. Однако после корректировки результатов с учетом фактора случайного угадывания, работа ИИ оказалась менее надежной. Ученые вынесли вердикт: искусственный интеллект показал результат лишь примерно на 60% лучше случайного. По словам исследователей, это ближе к низкой оценке D.
Обратите внимание!
Оценка D в американской системе образования (и ряде других стран) означает «плохо» или «ниже среднего». Это минимально проходной балл, соответствующий примерно 60-70% усвоения материала, что ближе всего к российской тройке с минусом, а то и двойке.
Модель испытывала особые трудности с выявлением ложных утверждений, она правильно маркировала их лишь в 16,4% случаев. Кроме того, чат-бот демонстрировал непоследовательность. При десятикратном повторении одного и того же запроса ChatGPT давал стабильные результаты лишь примерно в 73% случаев.
«Речь идет не просто о точности, а о непоследовательности, потому что, если задавать один и тот же вопрос снова и снова, можно получить разные ответы, — подчеркнул Чичек. — Мы использовали 10 промптов с одним и тем же вопросом. Все было идентично. Сначала ответ был “верно”, потом “неверно”, затем “верно”, потом “неверно”, потом “верно”. Было несколько случаев, когда пять ответов были “верно”, а пять — “неверно”».
ИИ не способен ничего реально понимать
Исследование, результаты которого опубликованы в журнале Rutgers Business Review, подчеркивает важность осторожного использования ИИ при принятия важных решений. Это в особенности касается ситуаций, когда требуется тонкий анализ или сложные рассуждения. Хотя генеративный ИИ может создавать беглую и убедительную речь, это не обязательно означает истинное понимание того, о чем он говорит.
Профессор Чичек заявил, что полученные результаты свидетельствуют о том, что концепция общего искусственного интеллекта, способного к подлинному рассуждению, еще далека от реализации. «Современные инструменты искусственного интеллекта не понимают мир так, как понимаем его мы, у них нет „мозга“, — пояснил Чичек. — Они просто запоминают и могут дать некоторое представление, но сами не понимают, о чем говорят».
Полученные результаты выявляют важное ограничение систем искусственного интеллекта, использующих большие языковые модели. Хотя они могут генерировать отточенные и убедительные ответы, им часто не хватает глубинного анализа. Это может приводить к ответам, которые звучат убедительно, но на самом деле неверны.
Эксперты призывают к осторожности
На основании этого исследования ученые рекомендуют, например, руководителям компаний или производств проверять результаты, сгенерированные ИИ. Относиться к ним следует со скептицизмом. Эксперты также подчеркивают важность обучения пользователей пониманию как сильных, так и слабых сторон инструментов ИИ.
Хотя данный эксперимент был сосредоточен на ChatGPT, Месут Чичек отметил, что аналогичные тесты с другими моделями показали сопоставимые результаты. «Всегда будьте скептичны, — подчеркнул профессор. — Я не против ИИ, я его использую. Но нужно быть очень осторожным».
6 способов улучшить результаты ИИ
Деннис Вимер, разработчик программного обеспечения с более чем 20-летним опытом, дал несколько подсказок, ориентированных на пользовательский опыт. Они также могут быть полезны тем, кто использует чат-ботов в научной или другой ответственной работе.
Превратите ИИ в своего тренера
Вы потратили 10 минут на создание идеального запроса, а чат-бот выдал совершенно неподходящий ответ. Большинство либо сдадутся, либо будут вносить случайные корректировки в промпт. Но есть способ получше.
Когда ИИ выдает неправильный результат, не просто перефразируйте запрос, вместо этого точно укажите, что пошло не так, и попросите у бота помощь в исправлении вашего промпта. Например: «Результат оказался не таким, как я ожидал. Я хотел [...], а ты дал мне [...]. Что не так с моим запросом, и как мне его улучшить, чтобы получить нужный результат?»
Заставьте ИИ отчитаться о работе
Знаете метод резиновой уточки, когда программисты объясняют свой код игрушке и внезапно обнаруживают ошибку? Это работает и с ИИ: объясняя ход своих рассуждений шаг за шагом, он может выявлять собственные ошибки и находить лучшие решения. Просто попробуйте добавить в любой промпт фразу «Пошагово объясни ход своих мыслей».
Дайте ИИ конкретные примеры
Можете описать то, что вам нужно (например, стиль письма) в нескольких абзацах, а можете показать чат-боту удачные примеры. Второе сработает лучше. Например, приведите три отрывка текста, которые вам нравятся, и один пример того, чего вы не хотите:
«Вот примеры желаемого стиля: [Хороший пример 1], [Хороший пример 2], [Хороший пример 3]. Избегай такого стиля: [Плохой пример]. Теперь создай что-то похожее для [вашей конкретной потребности]».
Используйте метод обратных подсказок
Вы замечали, как ИИ выдумывает детали, когда у него недостаточно информации? Имена, цифры, даты — все заведомо неверно. Попробуйте исправить это, чтобы чат-бот запрашивал у вас конкретику. Например, можно завершить промпт следующим образом: «Прежде чем начать, запроси у меня всю необходимую информацию».
Персонализируйте свой ИИ
«Ты — это...» — пожалуй, два самых мощных слова в создании качественного промпта. Они способны полностью изменить подход ИИ к вашему запросу. Начните запрос с того, что назначите боту конкретную роль: «Ты являешься [конкретным экспертом]», «Ты [известная личность], которая славится [определенной чертой характера или умением]», «Ты являешься [должность], специализирующимся в [конкретной области]».
ИИ-галлюцинации как стратегия
Этот вариант, по словам Вимера, экспериментальный, поэтому работает не всегда, но иногда становится просто находкой. В большинстве случаев мы хотим, чтобы ИИ был точным и реалистичным, но порой нужны смелые идеи, неожиданные подходы и творческие решения, выходящие за рамки привычного. В таком случае можно прямо приказать ИИ «галлюцинировать», то есть намеренно вести себя странно и креативно.
Парадоксальным образом разрешение быть «неправильным» приводит к прорывным идеям (это работает и с людьми). Добавьте в свой промпт фразы «Галлюцинации, творческие решения» или «Это творческое занятие, где тебе нужно мыслить нестандартно, обязательно нужно уметь фантазировать».