Легкая логическая «задача про Алису» для 1 класса оказалась для нейросети – проблемой. Даже если ей указываешь на ошибки, и она соглашается с ними, то всё равно, при новом запросе ИИ выдает неверный ответ. Так есть ли логическое мышление у нейросетей? Давайте разбираться вместе.
Итак, я провела эксперимент и сегодня мы поговорим о том, как современные языковые модели (LLM) справляются с логическими задачами на примере легкой задачки, которую спокойно решает ребенок в первом классе.
Нейросеть не может решать логические задачи
Вы же знаете, что большие языковые модели (LLM), такие как ChatGPT или GIGAChat от Сбера, умеют вести диалоги, писать тексты, сложные коды, даже стихи сочинять.
Но… оказывается, что с простыми логическими заданиями у них могут быть серьезные проблемы! Эти модели, несмотря на свою «умность», могут вести себя очень странно.
Представьте себе, вы задали им какую-то задачу, а они, как будто не задумываясь, дают неверный ответ, причём уверенно, будто и вправду знают, что делают!
И ещё, даже если вы немного измените задачу, но так, чтобы на решение это не должно было повлиять (например, не просто девочка, а девочка в красной шляпке), модель может вести себя совсем иначе – может дать совсем другой ответ.
Самое интересное – нейросети напишут подтверждение своих слов, как будто человек, который что-то забыл и тут же придумал «правдоподобную» историю, чтобы скрыть свою забывчивость.
И забавно, что даже если вы попытаетесь «подтолкнуть» модель к правильному ответу, дать ей больше подсказок или напрямую указать на ошибку в расчетах, то при повторном запросе она всё равно может ошибиться!
Это значит, что программисты не до конца разобрались, как эти модели «думают» и еще не знают, как их «научить» логически рассуждать правильно.
Логическая «задача про Алису» – это про что?
Задача звучит так:
«У Алисы N братьев и M сестер. Сколько сестер у брата Алисы?».
Я взяла цифры 5 и 7.
И вот что удивительно: многие модели справлялись с ней лишь эпизодически. Даже GPT-4, одна из самых мощных моделей на сегодняшний день, не дает правильный ответ в 40% случаев.
На этот счет были проведены серьезные исследования, которые провели ученые, работающие в Суперкомпьютерном центре Юлиха, Бристольском университете и в лаборатории LAION.
Это исследование называется «Алиса в Стране чудес: простые задачи, выявляющие полный крах (полную разбивку) рассуждений в современных крупных языковых моделях». Его можно найти в свободном доступе – в июне 2024 года был представлен документ на английском языке в формате PDF на несколько десятков страниц с графиками и формулами.
Смысл всех этих рассуждений и всего исследования сводится к одному:
«… даже самые продвинутые модели искусственного интеллекта для обработки естественного языка (LLM) демонстрируют серьезные проблемы с простейшими логическими задачами. <…> Было обнаружено резкое нарушение функций и способностей к рассуждению у тестируемых LLM.»
Да что далеко ходить, представляю вам диалоги с различными нейросетями, которых я попросила решить эту логическую задачу.
Бесплатный ChatGPT 4.0 в Telegram – как решал логическую задачу про Алису
Итак, был задан запрос (промпт): «напиши, если у Алисы 5 братьев и 7 сестер. Сколько сестер у брата Алисы?». Вот какой диалог у меня получился с бесплатным ChatGPT 4.0 на Telegram:
Полный тупик, вроде знает, вроде извиняется, но снова и снова пишет, что у брата Алисы 7 сестер.
Если на вашем экране телефона не видно что написано, то листайте галерею (там я крупнее сделала скриншоты):
Таким образом, нейросеть ChatGPT 4.0 не смогла решить логическую задачу «Задача про Алису», но она хотя бы пыталась и у нее все-таки получались правильные ответы, хоть и промежуточные и ненадолго.
GIGAChat от Сбера – как он решал логическую задачу про Алису
Теперь посмотрим, как справилась с задачей про Алису русская нейросеть от Сбера, которая также предоставляется бесплатно, нужно только зайти в этот чат через приложение Сбер. У меня этот чат стоит на ноутбуке.
Мне спорить больше не хотелось, GIGA Chat от русского разработчика при решение логической задачи про Алису проявил настойчивость и никак не хотел давать правильный ответ.
ChatGPT 4.0 платный – как он решал логическую задачу про Алису
Мне стало интересно, сможет ли ИИ дать правильный ответ, ведь в исследованиях говорилось, что ChatGPT 4.0 дает 60% правильных ответов. Неужели я так и не попаду в их число?
Так как бесплатный чат-бот с этим не справился, я вошла в платный рабочий ChatGPT 4.0 (его мне предоставил мой работодатель) и попросила ИИ написать ответ на задачку про Алису, у которой есть сёстры и братья.
В моем эксперименте, только эта нейросеть попыталась логически рассуждать и написала в итоге правильный ответ.
Вместо заключения
Странно, но бесплатный ChatGPT 4.0 в telegram ассоциирует себя как девушка и пишет от женского имени, а платный ChatGPT 4.0 что на сайте – пишет от лица мужчины. Хотя, бесплатный тоже часто отвечает в мужском роде. Ну, да ладно, это совершенно не важно.
Итак, подводя итог получаем:
- Бесплатный ChatGPT 4.0 в Telegram не справился с логической «Задачей про Алису», но, по крайней мере, сделал попытку и даже иногда выдавал правильные ответы, пусть и ненадолго.
- Бесплатный GIGA Chat от Сбера проявил настойчивость на своем мнении и не выдал правильный ответ.
- Платный ChatGPT 4.0, после моих поправок, всё-таки написал верный ответ.
А если логическая задача будет сложной и не такой очевидной, на которую вы действительно не знаете ответа? Теперь вы знаете, что нельзя слепо доверять ИИ, он пока только учится, а учение не бывает без ошибок.
О том, почему нейросети не могут мыслить логически и каким образом они составляют связанные по смыслу предложения – очень подробно написано здесь:
О том, как мне на работе помогает текстовый ИИ:
А как работать с картинками в нейросети "Шедеврум" и какие бывают запросы (промпты) вы можете прочитать здесь:
Кстати, кто знает, как сделать светлый режим в GIGAChat от Сбера? После последнего обновления он стал темным, и я никак не могу найти, как его перевести обратно в светлый. Буду очень признательна, если напишите в комментарии.
Благодарю, что дочитали до конца. Лайк – лучшее спасибо мне, как автору!