Дискуссия о том, что большие языковые модели (LLM) не являются полноценными моделями мира, вспыхнула снова благодаря статье Йосефа К. Его позиция проста: LLM могут генерировать связный текст, но не обладают устойчивым внутренним представлением о физических, логических или даже абстрактных состояниях.
Иными словами, они предсказывают последовательности слов, а не оперируют внутренней симуляцией реальности.
♟ Пример 1: шахматы без доски
Йосеф описывает, как тестировал LLM в шахматах, намеренно делая нестандартные слабые ходы.
Модель сначала реагировала правдоподобно, но уже к 9–10 ходу:
- 🚫 Теряла расположение фигур;
- 🚫 Делала невозможные ходы;
- 🚫 Продолжала комментировать так, словно всё в порядке.
Это симптом отсутствия внутреннего состояния: модель знает, как выглядит шахматный комментарий, но не знает, что фигуры должны находиться на определённых клетках.
🎨 Пример 2: альфа-блендинг без математики
На вопрос о режиме Normal в графических редакторах LLM ответила, что цвета «не смешиваются математической формулой».
Ошибки здесь фундаментальны:
- 💡 Любой цвет в компьютере — это число; смешивание всегда формула.
- 💡 Прозрачность (alpha) означает видимость нижнего слоя.
- 💡 Если нижний слой виден — его цвет участвует в расчёте итогового пикселя.
LLM может выдать правильную формулу, если её явно попросить, но это будет подстановка шаблона из обучающих данных, а не «понимание» принципа.
🔄 Пример 3: ассоциативность и кэширование
Автор спросил, ассоциативен ли альфа-блендинг в реальных библиотеках, и как тогда работает кэширование в редакторах слоёв.
Модель:
- 🌀 Согласилась, что блендинг «не ассоциативен»;
- 🌀 Согласилась, что кэширование всё же возможно (что противоречит предыдущему);
- 🌀 Не смогла согласованно объяснить механизм.
Это показывает, что LLM склонна поддерживать любые предложенные гипотезы, даже если они взаимоисключающие.
🖥 Пример 4: Python без GIL — как C?
При обсуждении потокобезопасности list.append() модель утверждала, что без GIL Python «может повредить память, как C».
Она не учла, что:
- 🛡 Чистый Python — память-безопасный язык.
- 🐞 Случайные краши из баг-трекеров — это ошибки реализации, а не «дизайн по умолчанию».
Модель не смогла перестроить ответ, даже при явном указании на контраргументы.
📌 Мой взгляд на проблему
LLM не строят целостных моделей предметных областей. Их «понимание» — это статистическая корреляция текстов, а не симуляция состояния или законов.
Это объясняет, почему:
- 🔍 Они великолепны в пересказе известной информации.
- 🧠 Могут давать инсайты эксперту, если запрос попадает в «коридор» обученных паттернов.
- ❌ Проваливаются на простых, но новых задачах в той же области.
🚀 Что это значит для будущего
Автор прогнозирует, что:
- 🌍 Будет хотя бы один большой прорыв в «world models» — универсальных алгоритмах построения моделей новых миров.
- 📉 LLM не станут основой AGI без дополнений: для сложных задач нужно состояние, симуляция и понятие правды/лжи.
- 📚 LLM останутся ценными как «обученные на тексте эксперты», но не как автономные агенты, особенно в больших кодовых базах или системах с глубокими зависимостями.
💬 Лично я считаю, что LLM стоит использовать как интерфейс к настоящим моделям мира — симуляторам, доменным движкам, планировщикам. Они сильны в языковой фасаде и слабоваты в «внутренней физике» происходящего.
🔗 Источники: