Найти в Дзене
ΩTrueMagic

Тестирую способности AI решать задачи на модальную логику

Логика знаний является разновидностью модальных логик и содержит утверждения вида "Алиса знает, что Боб знает, что Алиса знает, что небо голубое". Мне кажется, способность мыслить вложенными моделями/контекстами является важной частью интеллекта как такового. Если бы я разрабатывал AI, то я бы изначально проектировал архитектуру таким образом, чтобы AI мог мыслить вложенными моделями/контекстами. Мне стало интересно, как существующие модели решают задачи на модальную логику. Для этого я решил потестировать популярные модели AI на решение подобных задач. В прошлой статье я рассказал о программе TomEditor, с помощью которой я генерю задачи на модальную логику. В репозитории лежит пак с задачками, которые я сгенерил прежде. Среди них для тестов я выбрал следующие: Для тестов я использовал самые популярные модели: Grok, ChatGPT, Claude. А точнее, их бесплатные доступные версии. Исходя из описания модель "Grok 4.1 Thinking" способна "быстро думать". Не известно, какую именно модель Chat
Оглавление

Идея

Логика знаний является разновидностью модальных логик и содержит утверждения вида "Алиса знает, что Боб знает, что Алиса знает, что небо голубое".

Мне кажется, способность мыслить вложенными моделями/контекстами является важной частью интеллекта как такового. Если бы я разрабатывал AI, то я бы изначально проектировал архитектуру таким образом, чтобы AI мог мыслить вложенными моделями/контекстами.

Мне стало интересно, как существующие модели решают задачи на модальную логику. Для этого я решил потестировать популярные модели AI на решение подобных задач.

Задачи

В прошлой статье я рассказал о программе TomEditor, с помощью которой я генерю задачи на модальную логику.

В репозитории лежит пак с задачками, которые я сгенерил прежде. Среди них для тестов я выбрал следующие:

  • задача 3.2
  • задача 3.3
-2
  • задача 4.2
-3
  • задача 4.3
-4
  • задача 5.1
-5
  • задача 5.5
-6
  • задача 6.1
-7

Модели AI

Для тестов я использовал самые популярные модели: Grok, ChatGPT, Claude. А точнее, их бесплатные доступные версии.

Grok 4.1 Thinking

Исходя из описания модель "Grok 4.1 Thinking" способна "быстро думать".

ChatGPT

Не известно, какую именно модель ChatGPT использует под капотом. Он выбирает модель, подходящую под задачу.

Более умная модель "ChatGPT Go" не доступна в бесплатном режиме.

Claude Sonnet 4.5

Выбранная мною модель "Claude Sonnet 4.5" заявлена, как "лучшая для повседневных задач".

Более умная модель "Claude Opus 4.5" не доступна в бесплатном режиме.

Результаты тестов

Результаты тестов я собрал в таблицу:

-8

Каждая задача подразумевает, что нужно угадать несколько булевых переменных. В каждой ячейке обозначено, сколько переменных модель угадала верно, а так же примерное время работы.

Зеленым цветом помечены ячейки, в которых модель угадала все переменные.

Выводы

Точность

Самой успешной оказалась модель "Grok 4.1 Thinking". Что вполне закономерно, из доступных моделей она единственная заявлена как "думающая".

Самый плохой результат показала "Claude Sonnet 4.5".

Время

В целом Grok потратил больше времени на вычисления. Claude потратил меньше всего времени.

Видим простую корреляцию, чем дольше думаешь, тем лучше результат.

Процесс размышления

Grok сначала долго думает, потом выдает короткий финальный результат.

В отличие от него, модели ChatGPT и Claude пытаются "размышлять на ходу". В таком режиме ChatGPT умудряется решить некоторые задачи верно.

Каверзная задача 4.2

По непонятной причине, задача 4.2 оказалась не под силу ни одной из модели.

Возможно, мне стоит пересмотреть критерий сложности, которым я руководствовался.

Заключение

Интересно наблюдать, как AI размышляет над задачей.

Для тех, кому интересно разобраться с решением, советую использовать ChatGPT. Он показывает результат размышлений и (иногда) дает верный результат.

Не смотря на то, что архитектура современных AI изначально не заточена под работу с "вложенными контекстами", они умудряются решать некоторые задачи верно.