142 тыс подписчиков

Простейший вопрос заставил ошибиться лучшие нейросети

22 июля 202422 июл 2024

2651

3 мин

С момента появления ChatGPT большие языковые ИИ-модели продолжают свою эволюцию. Они генерируют уже крупные и порой весьма качественные тексты, нередко справляются с математикой и не самыми простыми задачами по программированию. Некоторые «нейронки» в этом году даже научились создавать стихи, причём с хорошей рифмой. Однако всё ещё существуют весьма простые вопросы, которые наглядно могут продемонстрировать ограниченность «мышления» даже самых продвинутых ИИ-моделей. На один из таких наткнулся промт-инженер Райли Гудсайд. Он спросил самую умную, если верить рейтингу ChatBot Arena, модель GPT-4 Omni: «9,11 или 9,9 – что больше?». Модель без особых колебаний ответила, что больше 9,11. Задав ИИ аналогичный вопрос, мы тоже получили неверный ответ. Причём GPT-4 Omni будет каждый раз выдумывать новые объяснения своей правоте. Дальнейшее исследование показывает, что это проблема отнюдь не только в лучшей версии ChatGPT. Мощнейшие ИИ-системы от Google и Anthropic – Gemini 1.5 и Claude 3 также

Однако всё ещё существуют весьма простые вопросы, которые наглядно могут продемонстрировать ограниченность «мышления» даже самых продвинутых ИИ-моделей. На один из таких наткнулся промт-инженер Райли Гудсайд. Он спросил самую умную, если верить рейтингу ChatBot Arena, модель GPT-4 Omni: «9,11 или 9,9 – что больше?». Модель без особых колебаний ответила, что больше 9,11.

Задав ИИ аналогичный вопрос, мы тоже получили неверный ответ. Причём GPT-4 Omni будет каждый раз выдумывать новые объяснения своей правоте.

Дальнейшее исследование показывает, что это проблема отнюдь не только в лучшей версии ChatGPT. Мощнейшие ИИ-системы от Google и Anthropic – Gemini 1.5 и Claude 3 также могут ответить неправильно.

Gemini от Google выдаёт аналогичную ошибку.

Причём иногда нейросети дают правильный ответ, однако если обновить страничку и задать вопрос ещё раз – ответ может быть уже противоположным.

Более того, неправильно отвечают и многие другие ИИ, включая китайские. Например, мы попробовали Qwen 2 – ответ был тот же:

Даже лучшие китайские системы также подвержены ошибке.

Иногда ответы нейросетей и вовсе смотрятся странно:

Китайская Yi Large выдаёт как неправильные ответы, так и вот такие самокритичные, что, к слову, похвально.

От замены чисел на другие ничего не меняется, замена запятой между цифрами на точку также не играет большой роли.

Объяснения ситуации могут быть разными. Например, если смотреть с точки зрения дат или версий ПО, то 9.11 действительно будет больше. Однако реальная причина, судя по всему, ещё глубже и связана с внутренними механизмами нейросетей, причём с самыми основами. Поэтому просто так взять и «пофиксить» её у разработчиков быстро не получится.

Листайте вправо, чтобы увидеть больше изображений

В отличие от Claude 3.0, новейший Claude 3.5 почти всегда даёт верный ответ. Однако при вопросе «ты уверен?» просит прощения и всё переделывает.

Впрочем, кажется, и сейчас можно заставить текущие ИИ-модели отвечать правильно. Пользователи заметили, что если переставить местами слова вопроса, то ответ очень часто будет верным. То есть нужно писать слова перед цифрами: «Что больше - 9,11 или 9,9?». И тогда модель практически наверняка ответит правильно. Мы протестировали этот приём много раз. Он всегда работал.

Переставьте слова вопроса, и ответ, скорее всего, будет правильным.

Стоит отметить, что вопрос про 9,11 и 9,9 – далеко не первый пример странностей в работе нейросетей. Например, ChatGPT в прошлом году преследовала проблема лени, когда ассистент начинал работать хуже после длительного использования, а ещё выдавал менее качественные ответы по выходным и праздникам. Только в этом году разработчикам удалось исправить проблему.

В свою очередь, встроенная нейросеть в англоязычной версии поиска Google не так давно посоветовала пользователю добавить в соус для пиццы 1/8 стакана нетоксичного клея, чтобы придать ему больше липкости. Такой ответ «нейронка» дала после жалобы, что с пиццы слишком часто падает сыр.

Впрочем, разработчики нейросетей также не сидят на месте. На протяжении уже года из лагеря OpenAI (авторы ChatGPT) идут слухи о разработке некой модели под кодовыми названиями Project Q* и Strawberry. Якобы она относительно близка к выходу и на порядок сильнее текущих решений в логике, рассуждениях, математике, программировании, умении планировать и самообучаться. В этом контексте весьма интересно будет спросить её про 9,11 и 9,9.

📃 Читайте далее на сайте

Нейронные сети (Neural Networks)

80,9 тыс интересуются