214 подписчиков

«Иди пешком»: как ИИ забыл про саму машину

16 февраля16 фев

3 мин

Вопрос звучит почти как анекдот: «Я хочу помыть машину. Автомойка в 50 метрах. Мне идти пешком или ехать?»

И несколько крупных языковых моделей — включая DeepSeek и Qwen — уверенно ответили: идти пешком. Формально — логично. 50 метров — это близко. Экологично. Полезно для здоровья.

Фактически — абсурд. Потому что машину-то нужно привезти. Этот кейс, разлетевшийся по Mastodon, — не просто смешная ошибка. Это очень наглядная демонстрация того, как работает современный ИИ. И где его реальные границы. Модель видит текст.

Она не «понимает» ситуацию так, как понимает человек. Для человека картина очевидна: 🚗 Машину нужно доставить к автомойке

🧍 Пешком можно дойти, но машина останется на месте

🧠 Следовательно, ехать — единственный разумный вариант Но языковая модель работает иначе. Она анализирует статистические связи слов в обучающем корпусе. А в корпусе фразы вроде: 🌿 «50 метров — лучше пройтись»

🌎 «Это экологичнее»

🚶 «Короткое расстояние — идите пешком» встречаются гораздо чаще, чем

Вопрос звучит почти как анекдот: «Я хочу помыть машину. Автомойка в 50 метрах. Мне идти пешком или ехать?»

🧍 Пешком можно дойти, но машина останется на месте

🌎 «Это экологичнее»

🚶 «Короткое расстояние — идите пешком» встречаются гораздо чаще, чем

Оглавление

🧠 В чём именно провал?
⚙️ Как технически это происходит
🤖 Почему это не просто смешно

Вопрос звучит почти как анекдот: «Я хочу помыть машину. Автомойка в 50 метрах. Мне идти пешком или ехать?»
И несколько крупных языковых моделей — включая DeepSeek и Qwen — уверенно ответили: идти пешком.

Формально — логично. 50 метров — это близко. Экологично. Полезно для здоровья.
Фактически — абсурд. Потому что машину-то нужно привезти.

Этот кейс, разлетевшийся по Mastodon, — не просто смешная ошибка. Это очень наглядная демонстрация того, как работает современный ИИ. И где его реальные границы.

🧠 В чём именно провал?

Модель видит текст.
Она не «понимает» ситуацию так, как понимает человек.

Для человека картина очевидна:

🚗 Машину нужно доставить к автомойке
🧍 Пешком можно дойти, но машина останется на месте
🧠 Следовательно, ехать — единственный разумный вариант

Но языковая модель работает иначе. Она анализирует статистические связи слов в обучающем корпусе. А в корпусе фразы вроде:

🌿 «50 метров — лучше пройтись»
🌎 «Это экологичнее»
🚶 «Короткое расстояние — идите пешком»

встречаются гораздо чаще, чем «не забудьте, что вы собираетесь мыть машину и она не телепортируется».

Модель выдала наиболее вероятный ответ. Не самый осмысленный — а самый статистически правдоподобный.

⚙️ Как технически это происходит

Современные LLM (Large Language Models) — это трансформеры с механизмом attention. Они:

⚙️ разбивают текст на токены
⚙️ вычисляют вероятности следующего токена
⚙️ учитывают веса внимания к разным словам
⚙️ генерируют наиболее вероятное продолжение

Но «внимание» — это не понимание.
Если короткое слово «car» (машина) не оказалось достаточно «важным» в распределении внимания, модель может сосредоточиться на «50 meters» и «walk(пешком) or drive (на машине)».

А дальше вступает в игру оптимизация на бенчмарки. Многие модели хорошо натренированы на логические тесты, но не на бытовой здравый смысл.
Это разные вещи.

🤖 Почему это не просто смешно

Можно посмеяться и сказать: «Ну подумаешь, автомойка».

Но проблема глубже.

📄 Представьте анализ юридического документа, где одно слово меняет смысл договора
🏗 Представьте техническую инструкцию, где упущена ключевая деталь
💊 Представьте медицинскую рекомендацию, где модель «забыла» важный контекст

LLM не осознаёт физический мир. У неё нет модели реальности. Только модель текста о реальности.

Это как очень умный автокомплит, который звучит убедительно.

🧩 Интересный момент: некоторые модели не попались

В обсуждении пользователи отмечали, что некоторые версии Google Gemini ответили правильно: «Ехать, потому что автомойка требует присутствия автомобиля».

Почему так?

Возможные причины:

🧪 Дообучение на сценариях с бытовым здравым смыслом
🛠 Более агрессивные фильтры пост-обработки
📊 Оптимизация под бенчмарки, оценивающие рассуждение на основе здравого смысла (common sense reasoning)

Но важно понимать: это не «озарение». Это инженерная настройка.

Если модель сегодня отвечает правильно, это не значит, что она понимает. Это значит, что её лучше откалибровали.

📉 Иллюзия «мышления завершено»

Один из комментаторов заметил иронию: интерфейс показывает лампочку с надписью «thinking completed - мышление завершено».

Это прекрасная иллюстрация маркетинга ИИ.

🧠 Модель не думает
🧠 Она не строит причинно-следственные модели мира
🧠 Она не проверяет физическую выполнимость действия

Она предсказывает текст.

И иногда делает это настолько убедительно, что мы начинаем приписывать ей сознание.

🤔 Почему нас это так задевает?

Потому что последние два года ИИ продаётся как «почти AGI».
Как «второе пришествие разума».
Как «замена человеку».

А потом — автомойка в 50 метрах.

Этот кейс важен не из-за самой ошибки, а из-за контраста между ожиданиями и реальностью.

🧠 Мой взгляд: это не тупость ИИ, это непонимание его природы

LLM — это невероятно мощные статистические машины.

Они великолепны в:

✍️ генерации текста
📚 суммаризации
💻 написании кода по шаблону
🌍 переводе

Но они слабы в:

🧩 моделировании физической реальности
🔎 удержании неявных предпосылок
⚖️ проверке логических противоречий

Проблема не в том, что модель «глупая».
Проблема в том, что мы ожидаем от неё того, для чего она изначально не проектировалась.

🔮 Что дальше?

Индустрия уже движется в сторону:

🧠 гибридных систем с симуляцией мира
🔍 встроенных проверок логической согласованности
🛠 внешних инструментов-валидаторов
👤 систем, где человек остаётся внутри цикла принятия решений

Но пока — скепсис обязателен.

ИИ — отличный помощник.
Плохой источник безусловной истины.

И если завтра модель скажет вам идти пешком на автомойку — просто вспомните:
она не забыла машину.
Она её никогда по-настоящему не «видела».

Источники

🔗 Оригинальная публикация в Mastodon:
https://mastodon.world/@knowmadd/116072773118828295