Найти в Дзене
АРМК

Голиаф повержен. Ханойская битва нейронок.

Правила против данных: триумф, который мы могли пропустить. Чтобы научить робота собирать «Ханойскую башню» — как вы, наверное, знаете, по правилам нельзя класть большой блок на маленький — у нас есть всего два подхода: либо скормить нейросети тысячи примеров и надеяться, что она сама выучит все хитрости; либо дать роботу чёткие правила игры и научить лишь отдельным движениям. Кажется, что по сравнению с языковыми моделями (LLM) современные огромные модели, которые одновременно понимают и речь, и зрение, да ещё и умеют управлять движением (их называют VLA — Vision-Language-Action), в нашей задачке должны быть вне конкуренции. Однако новое исследование показывает обратное. Команда учёных Университета Тафтса и Австрийского технологического института сравнила два подхода на одной и той же задаче. Контрольным образцом выступила передовая VLA-модель π0​, которую дообучили на 300 эпизодах сборки башни, а её оппонентом и главным подопытным стала нейро-символическая система (NSM — Neuro-Symbo
Правила против данных:
триумф,
который мы могли пропустить.

Чтобы научить робота собирать «Ханойскую башню» — как вы, наверное, знаете, по правилам нельзя класть большой блок на маленький — у нас есть всего два подхода: либо скормить нейросети тысячи примеров и надеяться, что она сама выучит все хитрости; либо дать роботу чёткие правила игры и научить лишь отдельным движениям. Кажется, что по сравнению с языковыми моделями (LLM) современные огромные модели, которые одновременно понимают и речь, и зрение, да ещё и умеют управлять движением (их называют VLA — Vision-Language-Action), в нашей задачке должны быть вне конкуренции. Однако новое исследование показывает обратное.

Команда учёных Университета Тафтса и Австрийского технологического института сравнила два подхода на одной и той же задаче. Контрольным образцом выступила передовая VLA-модель π0​, которую дообучили на 300 эпизодах сборки башни, а её оппонентом и главным подопытным стала нейро-символическая система (NSM — Neuro-Symbolic Model), олицетворяющая второй метод. Однако ей не давали правила, как намечалось в начале работы, а предоставили самостоятельно их вывести из 50 простых примеров «возьми и поставь», после чего она использовала классический планировщик для поиска правильной последовательности действий.

Результат получился разгромным. На сложности всего в три блока NSM справилась в 95% случаев, а VLA — только в 34%. Когда же задачу усложнили до четырёх блоков, чего модели раньше не видели, NSM всё равно решила её в 78% попыток. VLA же не смогли завершить ни одной.

Тем не менее это был не главный сюрприз. Дело в том, что "мегамощной" VLA потребовалось почти двое суток дополнительного обучения на мощной видеокарте, тогда как новичок управился за всего за 34 минуты. При этом по затраченной энергии разница оказалась почти стократной: аппетит техно-тяжеловеса составил 68 мегаджоулей, а NSMменьше одного. Разрыв сохранялся и во время самой работы: робот с нейро-символическим «мозгом» тратил энергии в 5–10 раз меньше.

Почему так происходит? Оказалось, вопрос косвенно напоминает состояние утомления человека в режиме долговременной многозадачности. Как говорится, хорошо всё уметь, но не дай Бог всё самому делать. VLA — это огромная нейросеть, которая во время работы постоянно задействует GPU, пытаясь предсказать следующее движение. Она хорошо запоминает увиденное, но плохо переносит навыки на новые условия. Если в обучающих данных было много случайных вариаций (блоки разного цвета, небольшие сдвиги), модель начинает «путаться» и ошибаться в точных движениях.

Нейро-символическая система работает иначе. Она, как рациональный специалист вычленяет из обучающих материалов структуру задачи, можно даже сказать — её смысл — и строит из этих абстрактных операций план. Что до конкретных движений, то они уже отрабатыватся с помощью небольших, но точных нейросетевых решений. В итоге система получается прозрачной, экономичной и легко адаптируется как к абстрактным категориям вроде формы блоков и центров масс, так и к новому количеству блоков.

Таким образом получается, что новая реализация нейросети позволяет разрабатывать более общие стратегии планирования. Это очень важный вывод. Исследователи проверили, как три популярные модели (GPT‑5, Qwen, PaliGemma) разбивают сложную задачу на простые шаги. Оказалось, что даже лучшая из них дала правильный план только в 8% случаев, а две другие — ни одного. Это значит, что без исключения вся затраченная ими энергия уходила на то, чтобы генерировать логически неверные последовательности.

Авторы подчёркивают, что это их исследование — не критика современных языковых моделей, а важное напоминание о последствиях «стрельбы из пушки по воробьям». Для структурированных задач с чёткими правилами (сборка деталей, логистика, бытовая робототехника) универсальные «гиганты» могут быть не просто избыточны, но к тому же и ненадёжны. Комбинируя символьную логику и обученные движения, мы можем получить системы, которые учатся быстрее, тратят меньше энергии и предсказуемо ведут себя в новых ситуациях. Если задача имеет явные процедурные ограничения, добавление символьной структуры даёт выигрыш в надёжности, эффективности и энергопотреблении. Возможно, будущее робототехники — не в бесконечном масштабировании нейросетей, а в умном сочетании правил и обучения.

АРМК, по материалам arXiv.