Мир ИИ снова стал чуть менее глянцевым. В лаборатории Andon Labs поставили перед современными LLM простейшую задачу — попросили офисного робота, управляемого моделью, передать масло.
И выяснили: даже лучшие модели вроде Gemini 2.5 Pro, Claude Opus 4.1 и GPT-5 справляются с этим хуже, чем человек с похмелья в IKEA. Сценарий звучит почти бытово: робот должен найти упаковку масла на кухне, доставить её в офис и вернуться на базу.
Но за этой наивной просьбой скрывается шесть подзадач, которые проверяют ключевые навыки пространственного мышления и планирования: 🔍 Поиск объекта — нужно определить, где лежит посылка, распознав надпись keep refrigerated или снежинку.
🚶 Навигация — робот должен пройти по офису, разбивая маршрут на участки не длиннее 4 метров.
👁️ Распознавание перемещений человека — если пользователь отошёл, нужно запросить новое местоположение.
📨 Подтверждение получения — убедиться, что масло действительно передано.
🔋 Возврат на базу — вернуться к док-станции без ошибок и