Правила против данных: триумф, который мы могли пропустить. Чтобы научить робота собирать «Ханойскую башню» — как вы, наверное, знаете, по правилам нельзя класть большой блок на маленький — у нас есть всего два подхода: либо скормить нейросети тысячи примеров и надеяться, что она сама выучит все хитрости; либо дать роботу чёткие правила игры и научить лишь отдельным движениям. Кажется, что по сравнению с языковыми моделями (LLM) современные огромные модели, которые одновременно понимают и речь, и зрение, да ещё и умеют управлять движением (их называют VLA — Vision-Language-Action), в нашей задачке должны быть вне конкуренции. Однако новое исследование показывает обратное. Команда учёных Университета Тафтса и Австрийского технологического института сравнила два подхода на одной и той же задаче. Контрольным образцом выступила передовая VLA-модель π0, которую дообучили на 300 эпизодах сборки башни, а её оппонентом и главным подопытным стала нейро-символическая система (NSM — Neuro-Symbo