32,4 тыс подписчиков

ИИ провалился на элементарной логике Алисы – что же дальше?

7 февраля7 фев

5 мин

Легкая логическая задача для первоклассника стала ахиллесовой пятой нейросети. Как это возможно? Сегодня мы погружаемся в глубины искусственного интеллекта и разбираемся, почему даже передовые языковые модели не могут просто и однозначно ответить на вопрос: «Сколько сестер у брата Алисы, если у неё 5 братьев и 7 сестер?». Почему с такими вопросами возникают сложности и как это отражается на будущем ИИ? Погнали! Большие языковые модели (LLM), такие как ChatGPT и отечественный GIGAChat от Сбера, поражают своей способностью вести разговоры, писать тексты, создавать художественные рассказы, помогать с кодом и даже сочинять стихи. Однако их логическое мышление по-прежнему далеки от совершенства. В 2025 году исследователи из Суперкомпьютерного центра Юлиха, Бристольского университета и лаборатории LAION провели масштабное исследование, показавшее, что у LLM с логическими задачами возникают серьезные проблемы. В центре внимания оказалась простая, казалось бы, задача: «У Алисы 5 братьев и 7 се

Оглавление

Краткая предыстория
Как нейросети запутались в «задаче про Алису»
Пример из жизни: бесплатный ChatGPT 4.0 в Telegram

Легкая логическая задача для первоклассника стала ахиллесовой пятой нейросети. Как это возможно? Сегодня мы погружаемся в глубины искусственного интеллекта и разбираемся, почему даже передовые языковые модели не могут просто и однозначно ответить на вопрос: «Сколько сестер у брата Алисы, если у неё 5 братьев и 7 сестер?». Почему с такими вопросами возникают сложности и как это отражается на будущем ИИ? Погнали!

Краткая предыстория

Большие языковые модели (LLM), такие как ChatGPT и отечественный GIGAChat от Сбера, поражают своей способностью вести разговоры, писать тексты, создавать художественные рассказы, помогать с кодом и даже сочинять стихи. Однако их логическое мышление по-прежнему далеки от совершенства.

В 2025 году исследователи из Суперкомпьютерного центра Юлиха, Бристольского университета и лаборатории LAION провели масштабное исследование, показавшее, что у LLM с логическими задачами возникают серьезные проблемы. В центре внимания оказалась простая, казалось бы, задача:

«У Алисы 5 братьев и 7 сестер. Сколько сестер у брата Алисы?» ИИ провалился на элементарной логике Алисы – что же дальше?

Несложная задача для ребёнка 7 лет, чтобы потренировать внимание и логику, стала настоящим испытанием для ИИ.

Как нейросети запутались в «задаче про Алису»

Задача не просто так стала «легендой» – её решают с разной степенью успеха даже самые продвинутые модели. По данным исследования, GPT-4 даёт верный ответ лишь в ~60% случаев, а бесплатные версии и вовсе путаются примерно в 40% диалогов.

В чем же подвох? Если у Алисы 7 сестер, значит, у каждого из её братьев 6 сестёр, ведь одну сестру – саму Алису – братья «не считают». Но нейросети часто путают понятия родственных связей, отвечая, что у брата столько же сестёр, сколько у Алисы, то есть 7. Они даже могут строить убедительные, но ошибочные объяснения, уподобляясь человеку, который забывает факт и пытается "выкрутиться".

Пример из жизни: бесплатный ChatGPT 4.0 в Telegram

Эксперимент показал: бесплатный ChatGPT 4.0 в Telegram пытался решить задачу, но постоянно выдавал версию с 7 сестрами у брата, хотя его «поведение» было непостоянным. После указания на ошибку — извинялся и соглашался, но при повторном запросе снова ошибался. Такое постоянство в ошибке впечатляет и немного забавляет, но вызывает вопросы о реальных возможностях ИИ.

Отечественный GIGAChat от Сбера

Российская языковая модель GIGAChat, доступная через приложение Сбербанка, проявила удивительную настойчивость. Она не склонна была менять своё мнение – в отличие от GPT. Упорно утверждала некорректный ответ, игнорируя подсказки и объяснения. Зато это наталкивает на мысль, что ИИ-продукты отечественного производства рождены с сильным «характером» и самостоятельностью.

Платный ChatGPT 4.0

Когда была задействована платная версия ChatGPT 4.0, ситуация улучшилась. Модель, получив больше ресурсов и доступа к последним обновлениям, всё же смогла прийти к правильному ответу. Это подтверждает, что вложения в ИИ дают результат, но там ещё много над чем работать.

Почему нейросети не могут мыслить как ребёнок?

Чтобы понять, почему нейросети допускают такие ошибки, стоит вспомнить, как они устроены. LLM не обладают настоящим логическим мышлением или пониманием мира. Они — огромные статистические модели, обученные на миллиардах текстов, и их «мышление» – это вероятностное предсказание следующего слова в фразе.

Задачи с явной логикой требуют связного рассуждения. Но нейросети умеют лишь имитировать рассуждения, подбирая шаблонные ответы, не всегда адекватно интерпретируя условия и не всегда «понимая» структуру задачи.

Вот почему даже простейшая задачка про Алису ставит в тупик AI: логика для них не встроена, а лишь натренирована создавать осмысленные на вид тексты.

Что говорит статистика и исследования

Согласно исследованию в Европе, 40% ошибок в простейших логических задачах на LLM – таков реальный показатель.
Тестирование на 10 тысячах простых логических задач показало, что модели часто поддаются на хитрые формулировки и даже меняют ответы при незначительном изменении условий.
В России всё больше компаний и институтов вкладывают ресурсы в создание ИИ, способного мыслить логично, но пока что это лишь долгосрочная цель.

Будущее ИИ и логика: что нам ждать?

Невозможность правильно отвечать на простую логическую задачу указывает на фундаментальный разрыв между «текствым интеллектом» и реальным мышлением. Но это не приговор. Ученые активно работают над внедрением в ИИ модулей, способных по-настоящему рассуждать – например, комбинируя большие языковые модели с классическими алгоритмами логики и символического вывода.

Отечественные разработчики, например, в Сбере, активно занимаются улучшением GIGAChat. Уже сегодня заметно, что при более тщательной «настройке» и методах обратной связи качество логики растёт.

Важно помнить: ИИ все еще учится, с каждым днем становится умнее, но пока ему далеко до «логического гения». Поэтому любителям тестировать ИИ логикой стоит не забывать критически оценивать ответы и не слепо доверять автоматам.

Практические советы для пользователей ИИ

Проверяйте ответы на логику. Даже если ИИ выдал убедительный текст, перепроверьте его самостоятельно.
Используйте модели с различным уровнем доступа. Платные версии зачастую дают более точные ответы.
Не стесняйтесь задавать уточняющие вопросы. Иногда повторный запрос с немного измененной формулировкой помогает получить другой результат.
Привлекайте человечьи знания. Помните, что ИИ — помощник, а не замена живому эксперту.

Вопрос читателям

А вы сталкивались с тем, что ИИ выдавал уверенный, но неверный ответ на простую логическую задачу? Поделитесь своим опытом и мнением, как, по вашему, должны развиваться эти технологии дальше, чтобы научиться по-настоящему думать.

Спасибо за внимание и до новых встреч в блоге!