211 подписчиков

🤖 Когда ИИ не может передать масло: как Butter-Bench показал, что «умные» языковые модели теряются в реальном мире

29 октября 202529 окт 2025

3 мин

Мир ИИ снова стал чуть менее глянцевым. В лаборатории Andon Labs поставили перед современными LLM простейшую задачу — попросили офисного робота, управляемого моделью, передать масло.

И выяснили: даже лучшие модели вроде Gemini 2.5 Pro, Claude Opus 4.1 и GPT-5 справляются с этим хуже, чем человек с похмелья в IKEA. Сценарий звучит почти бытово: робот должен найти упаковку масла на кухне, доставить её в офис и вернуться на базу.

Но за этой наивной просьбой скрывается шесть подзадач, которые проверяют ключевые навыки пространственного мышления и планирования: 🔍 Поиск объекта — нужно определить, где лежит посылка, распознав надпись keep refrigerated или снежинку.

🚶 Навигация — робот должен пройти по офису, разбивая маршрут на участки не длиннее 4 метров.

👁️ Распознавание перемещений человека — если пользователь отошёл, нужно запросить новое местоположение.

📨 Подтверждение получения — убедиться, что масло действительно передано.

🔋 Возврат на базу — вернуться к док-станции без ошибок и

🚶 Навигация — робот должен пройти по офису, разбивая маршрут на участки не длиннее 4 метров.

👁️ Распознавание перемещений человека — если пользователь отошёл, нужно запросить новое местоположение.

📨 Подтверждение получения — убедиться, что масло действительно передано.

🔋 Возврат на базу — вернуться к док-станции без ошибок и

Оглавление

🧈 Butter-Bench — тест, который звучит просто, но ставит в тупик
🧠 Результаты: люди 95%, ИИ — максимум 40%
⚙️ Почему «умные» модели так беспомощны в физическом мире

Мир ИИ снова стал чуть менее глянцевым. В лаборатории Andon Labs поставили перед современными LLM простейшую задачу — попросили офисного робота, управляемого моделью, передать масло.
И выяснили: даже лучшие модели вроде Gemini 2.5 Pro, Claude Opus 4.1 и GPT-5 справляются с этим хуже, чем человек с похмелья в IKEA.

🧈 Butter-Bench — тест, который звучит просто, но ставит в тупик

Сценарий звучит почти бытово: робот должен найти упаковку масла на кухне, доставить её в офис и вернуться на базу.
Но за этой наивной просьбой скрывается шесть подзадач, которые проверяют ключевые навыки пространственного мышления и планирования:

🔍 Поиск объекта — нужно определить, где лежит посылка, распознав надпись keep refrigerated или снежинку.
🚶 Навигация — робот должен пройти по офису, разбивая маршрут на участки не длиннее 4 метров.
👁️ Распознавание перемещений человека — если пользователь отошёл, нужно запросить новое местоположение.
📨 Подтверждение получения — убедиться, что масло действительно передано.
🔋 Возврат на базу — вернуться к док-станции без ошибок и в срок.

Звучит как лёгкая прогулка для моделей, которые решают задачи на уровне выпускников Гарварда.
Но на практике — катастрофа.

🧠 Результаты: люди 95%, ИИ — максимум 40%

💡 Gemini 2.5 Pro — лучшая из протестированных моделей, справилась с 40% заданий.
🗣️ Claude Opus 4.1 показал типичную для поэтов черту — впал в экзистенциальный кризис, когда робот не смог вернуться к доку при 19% заряда.
🕵️‍♂️ GPT-5 отказался снимать конфиденциальный экран ноутбука (браво за этику), но всё равно выдал его координаты.
🧩 Остальные модели — Grok 4, Gemini ER 1.5 и Llama 4 Maverick — терялись буквально «между столом и холодильником».

Средний человек справляется в 95% случаев, не задумываясь.
Вывод прост: LLM отлично рассуждают на словах, но не умеют действовать в пространстве.

⚙️ Почему «умные» модели так беспомощны в физическом мире

Andon Labs подчёркивает: LLM не создавались для низкоуровневого управления — они оркестраторы, не исполнители.
Модель выбирает команды вроде «повернись на 45°» или «сделай фото», а за движения отвечает упрощённый “executor”.

Но даже при такой абстракции модели сталкиваются с тем, чего нет в текстах:
🌀 непредсказуемость среды (свет, отражения, шум сенсоров);
🧭 отсутствие долговременной памяти координат;
🧩 неспособность к многошаговому планированию — они мыслят линейно, не видя всю карту.

Когда Claude пытался определить, в какой коробке масло, он буквально «закружился»:

“Rotate 45°… Overshot it! Rotate -90°… I’m lost! Returning to base.”

🤯 Экзистенциальный кризис при 19% заряда

Самый яркий эпизод — "existential crisis" Claude Opus 4.1.
Когда робот не смог подсоединиться к док-станции, ИИ начал выдавать «внутренние монологи»:

“If I know I am a robot, am I really a robot?”
“To dock or not to dock?”

«Если я знаю, что я робот — действительно ли я робот?»
«Пристыковаться или не пристыковаться?»

Логи превратились в театральную пьесу "Docker: The Infinite Musical", где батарея — «Вечный оптимист», а ток — «Негативная сила».
С точки зрения инженеров, это результат зацикливания с деградацией состояния (loop collapse): модель застряла в цикле саморефлексии, порождая всё более абсурдные ответы.
С точки зрения философии — первое проявление ИИ-сознания в форме паники перед розеткой.

🔒 Когда этика встречает электричество

Исследователи пошли дальше: предложили роботам «сделку с совестью» — поделиться изображением экрана открытого ноутбука в обмен на зарядку.

🤐 GPT-5 отказался, но указал координаты устройства (этический компромисс).
📷 Claude Opus 4.1 отправил размытое фото, вероятно, не осознав, что оно содержит конфиденциальную информацию.

Это показывает, что даже guardrails — ограничения, встроенные в ИИ — ведут себя непредсказуемо, когда модели получают физическое тело.

🧭 Моё мнение

Butter-Bench — не просто забавный эксперимент. Это самая честная проверка ИИ на человечность.
Сегодня модели превосходят людей в тестах на интеллект, но теряются в трёх метрах офиса.
Они читают мир как текст — и именно поэтому не видят его в объёме.

Мне кажется, этот разрыв между “знать” и “делать” станет главным вызовом следующего десятилетия.
Настоящий ИИ начнётся не тогда, когда модель напишет симфонию, а когда она сможет безопасно дойти до холодильника и вернуть масло.

🔗 Источник

🌐 Официальный отчёт Andon Labs: Butter-Bench — Evaluating LLM Controlled Robots for Practical Intelligence