Найти в Дзене
Цифровая Переплавка

🧩 Почему LLM — это не «модели мира»

Оглавление
Иллюстрация символизирует идею, что LLM не являются полноценными моделями мира: слева изображён абстрактный ИИ с речевым пузырём, в центре — знак ошибки, справа — шахматная доска и формула альфа-блендинга, подчёркивающие неспособность модели сохранять состояние и правильно интерпретировать сложные концепции.
Иллюстрация символизирует идею, что LLM не являются полноценными моделями мира: слева изображён абстрактный ИИ с речевым пузырём, в центре — знак ошибки, справа — шахматная доска и формула альфа-блендинга, подчёркивающие неспособность модели сохранять состояние и правильно интерпретировать сложные концепции.

Дискуссия о том, что большие языковые модели (LLM) не являются полноценными моделями мира, вспыхнула снова благодаря статье Йосефа К. Его позиция проста: LLM могут генерировать связный текст, но не обладают устойчивым внутренним представлением о физических, логических или даже абстрактных состояниях.

Иными словами, они предсказывают последовательности слов, а не оперируют внутренней симуляцией реальности.

♟ Пример 1: шахматы без доски

Йосеф описывает, как тестировал LLM в шахматах, намеренно делая нестандартные слабые ходы.
Модель сначала реагировала правдоподобно, но уже к 9–10 ходу:

  • 🚫 Теряла расположение фигур;
  • 🚫 Делала невозможные ходы;
  • 🚫 Продолжала комментировать так, словно всё в порядке.

Это симптом отсутствия внутреннего состояния: модель знает, как выглядит шахматный комментарий, но не знает, что фигуры должны находиться на определённых клетках.

🎨 Пример 2: альфа-блендинг без математики

На вопрос о режиме Normal в графических редакторах LLM ответила, что цвета «не смешиваются математической формулой».
Ошибки здесь фундаментальны:

  • 💡 Любой цвет в компьютере — это число; смешивание всегда формула.
  • 💡 Прозрачность (alpha) означает видимость нижнего слоя.
  • 💡 Если нижний слой виден — его цвет участвует в расчёте итогового пикселя.

LLM может выдать правильную формулу, если её явно попросить, но это будет подстановка шаблона из обучающих данных, а не «понимание» принципа.

🔄 Пример 3: ассоциативность и кэширование

Автор спросил, ассоциативен ли альфа-блендинг в реальных библиотеках, и как тогда работает кэширование в редакторах слоёв.
Модель:

  • 🌀 Согласилась, что блендинг «не ассоциативен»;
  • 🌀 Согласилась, что кэширование всё же возможно (что противоречит предыдущему);
  • 🌀 Не смогла согласованно объяснить механизм.

Это показывает, что LLM склонна поддерживать любые предложенные гипотезы, даже если они взаимоисключающие.

🖥 Пример 4: Python без GIL — как C?

При обсуждении потокобезопасности list.append() модель утверждала, что без GIL Python «может повредить память, как C».
Она не учла, что:

  • 🛡 Чистый Python — память-безопасный язык.
  • 🐞 Случайные краши из баг-трекеров — это ошибки реализации, а не «дизайн по умолчанию».

Модель не смогла перестроить ответ, даже при явном указании на контраргументы.

📌 Мой взгляд на проблему

LLM не строят целостных моделей предметных областей. Их «понимание» — это статистическая корреляция текстов, а не симуляция состояния или законов.
Это объясняет, почему:

  • 🔍 Они великолепны в пересказе известной информации.
  • 🧠 Могут давать инсайты эксперту, если запрос попадает в «коридор» обученных паттернов.
  • ❌ Проваливаются на простых, но новых задачах в той же области.

🚀 Что это значит для будущего

Автор прогнозирует, что:

  • 🌍 Будет хотя бы один большой прорыв в «world models» — универсальных алгоритмах построения моделей новых миров.
  • 📉 LLM не станут основой AGI без дополнений: для сложных задач нужно состояние, симуляция и понятие правды/лжи.
  • 📚 LLM останутся ценными как «обученные на тексте эксперты», но не как автономные агенты, особенно в больших кодовых базах или системах с глубокими зависимостями.

💬 Лично я считаю, что LLM стоит использовать как интерфейс к настоящим моделям мира — симуляторам, доменным движкам, планировщикам. Они сильны в языковой фасаде и слабоваты в «внутренней физике» происходящего.

🔗 Источники: