Он должен существовать. Он повсюду. И при этом — его трудно ухватить.
В следующий раз, когда вы возьмёте предмет, плотно стоящий на полке — например, книгу или коробку, — понаблюдайте за своими руками. Вы слегка сдвигаете его в сторону, чтобы освободить место для пальцев? Подвигаете к краю, прежде чем поднять? Если что-то тяжёлое начинает выскальзывать, вы на мгновение ставите это обратно, чтобы перехватить поудобнее?
Эти движения тонкие и автоматические. Мы редко их замечаем, но именно они делают колоссальную работу. Все эти микрокоррекции, восстановления и «очевидные» действия вместе составляют значительную часть нашей поразительной способности манипулировать физическим миром.
Это и есть физический здравый смысл. Реактивный интеллект замкнутого контура, стоящий за действием в реальном мире: интуиция сил, трения, податливости и неопределённости, выученная за всю жизнь сенсомоторного опыта и «скомпилированная» в рефлексы и мышечную память. Он позволяет нам корректировать действия на лету, исправлять ошибки, не задумываясь, и выходить из неожиданных ситуаций до того, как они станут провалами.
Он повсюду — но то, что для нас кажется второй натурой, для машин чрезвычайно сложно: трудно описать, невозможно запрограммировать.
Легко для людей, трудно для машин
Эта идея много раз появлялась под разными именами. В 1966 году Майкл Полани назвал это неявным знанием — знанием, которое трудно выразить словами и которое постигается только через действие, когда тело становится инструментом познания мира (например, езда на велосипеде или замешивание теста). В 1988 году Ханс Моравек указал на родственный парадокс: навыки, которые эволюция отточила в человеке в первую очередь — сенсомоторный контроль и физическое взаимодействие, — оказываются самыми трудными для воспроизведения машинами.
Спустя десятилетия парадокс сохраняется. Машины превосходны в вычислительных задачах, но им сложно усвоить тонкую физическую компетентность даже малыша. Промышленные роботы могут повторять заранее запрограммированные движения с миллиметровой точностью в контролируемых условиях, но стоит появиться хоть небольшой неструктурированности — проскальзывание, захламлённость, деформируемые объекты, неопределённость, — и они часто терпят неудачи, которые ощущаются глубоко «нечеловеческими».
Почему модели, обученные на интернете, не обладают физическим здравым смыслом
Мысль Полани здесь особенно точна: физический здравый смысл трудно описать, потому что он не языковой. Он живёт не в утверждениях — он живёт в петле между ощущением и действием.
Модели, обученные на интернет-тексте (и изображениях), усваивают особый тип семантического здравого смысла: статистические закономерности и паттерны слов, фактов и символов. Завершая фразу «мальчик пошёл в ___», модель выдаёт распределение вероятностей — около 40% «на площадку», 30% «в школу» и т. д. Это отражает общие априоры знаний, которыми делится большинство людей (в письменном виде). При правильной «обвязке» (как показывали наши прошлые исследования) такие модели могут генерировать планы, код или высокоуровневые последовательности действий, иногда используемые на роботах. Но это не физический здравый смысл.
Недостающий ингредиент — взаимодействие в замкнутом контуре. В интернет-данных нет проприоцепции, нет вмешательства, нет последствий. Нет выскальзывающего предмета. Нет корректирующего рефлекса. Изучать ПДД по учебнику полезно, но это не то же самое, что реальный опыт вождения на дороге — и тот здравый смысл, который приходит вместе с ним.
Физический здравый смысл приобретается через физический опыт
Физический здравый смысл возникает из сенсомоторной петли. В процессе взаимодействия с миром действие порождает информацию: агент наблюдает результат, уменьшает неопределённость о мире и обновляет априор того, что делать дальше. Интеллект формируется не только чтением, но и действием.
Ребёнок, наливающий воду, учится не по описанию, а через ощущения — ёмкость становится легче, вода плещется на пальцы, поверхности делаются скользкими, захваты срываются и адаптируются. Это не аннотации. Это опыт. Понятия ёмкости, воды и скольжения укореняются в последствиях.
Данные могут породить здравый смысл — если это правильные данные
Языковые модели, однако, показали нам важную вещь: здравый смысл может возникать из масштаба. Переизбыточно параметризованные модели, обученные на больших и разнообразных наборах данных, проявляют своего рода спектральное смещение — они сначала учат простые закономерности, которые обобщаются между примерами, формируя структуру, в которой здравый смысл можно статистически уловить.
То же может быть верно и для робототехники. Если крупномасштабный текст даёт семантический здравый смысл, то крупномасштабное физическое взаимодействие может дать физический здравый смысл.
Но только если данные сохраняют петлю.
Сегодня значительная часть роботических данных собирается через телеуправление (известно с 1950-х). Но телеуправление часто разрывает сенсомоторную петлю: задержки, ограниченная тактильная обратная связь и неестественные интерфейсы уводят операторов от быстрого, реактивного управления (мышление Системы 1) к медленному, осознанному планированию (Система 2) — вроде «поставь палец сюда… потом другой туда…». В результате траектории получаются жёсткими и рублеными. Обучение моделей имитации таких траекторий упирается в стену: роботы становятся дёргаными и медленными. Даже если записи искусственно «ускорить», возникает явное несоответствие между динамикой наблюдений и тем, как робот должен реагировать (например, объект на самом деле не падает вдвое быстрее).
Исключение — сбор данных настолько бесшовный, что он сохраняет естественное человеческое поведение, будто разум оператора действует напрямую через инстинкты, отточенные миллионами лет.
В Generalist мы создали лёгкие ручные эргономичные устройства, позволяющие людям манипулировать объектами почти так же, как собственными руками. Они сбалансированы, есть силовая обратная связь — и спустя несколько минут выполнения задачи операторы перестают «думать» и начинают реагировать.
Результат выглядит иначе. Люди вяжут, чистят картошку, расписывают миниатюры. Это не только расширяет спектр задач, для которых можно собирать роботические данные, — сами данные захватывают рефлексы, микрокоррекции и восстановление в реальном времени. Наши модели, обученные на таких данных, демонстрируют поведение, которое люди стабильно описывают как «человеческое». И это не случайно.
Первые признаки физического здравого смысла
По мере масштабирования данных реальных, реактивных манипуляций начинает проявляться закономерность: фронтирные модели, предварительно обученные на больших и разнообразных физических взаимодействиях, быстрее адаптируются, лучше переносятся и требуют меньше донастройки под конкретные задачи, чтобы закрыть разрыв при развёртывании.
Наши результаты показывают, что крупномасштабное предварительное обучение в робототехнике, похоже, формирует априор на взаимодействие, насыщенное контактами — «ощущение того, что будет дальше», — которое помогает моделям заполнять пробелы при последующем обучении. Растут показатели успеха. Улучшается восстановление после ошибок. Перенос становится проще.
Физический здравый смысл — это эмерджентная структура, из которой вырастают законы масштабирования в робототехнике.
Именно это заставляет меня каждое утро с энтузиазмом идти в офис и видеть, как всё это оживает. Моменты, когда робот работает и кто-то просто говорит: «Вау… ты это видел?» — восстановления, которые не выглядят заскриптованными, коррекции, происходящие «бесплатно», поведение, которое похоже не на проигрывание траектории, а на реакцию на физику в реальном времени.
Этот сдвиг — от «запрограммированного совершенства» к «выученной интуиции» — будет фундаментальным. Классическая робототехника требует структурированных сред и миллиметровой точности. Она может быть впечатляющей — пока мир не станет хоть немного грязным, и всё не начнёт ломаться. Люди же справляются без миллиметровой точности, потому что несут в себе выученный априор физического взаимодействия. Мы адаптируемся, восстанавливаемся и остаёмся устойчивыми к неопределённости. Модели, обученные на правильных физических данных, могут дать роботам зачатки той же интуиции.
Роботы, «из коробки» обладающие физическим здравым смыслом, будут лучше почти во всём.
Физический здравый смысл — это больше, чем низкоуровневое управление
Несколько месяцев назад мы показали демо одношаговой сборки (любимое у команды): вы показываете роботу, что нужно собрать из LEGO, и он делает копии конструкции. Одна сенсомоторная модель выполняет моменты физического здравого смысла — подталкивание, переориентацию, восстановление — одновременно с высокоуровневым рассуждением о семантике задачи: что делать дальше и как размещать детали (вещи, которые иначе было бы трудно описать языком).
Эти возможности захватывают, потому что они намекают на грядущее — новую эпоху базовых моделей, рождённых из физического опыта, которые однажды смогут рассуждать о физическом мире на высоком уровне так же хорошо, как люди. По мере роста сложности задач и рабочих процессов граница между низкоуровневым взаимодействием и высокоуровневым планированием начинает размываться.
Воплощённые системы вынуждают задействовать весь стек интеллекта. Мир частично наблюдаем, враждебен и беспощаден. Действия дают информацию — но и необратимые последствия. Высокоуровневое мышление должно происходить в реальном времени, а гравитация не ждёт никого.
Мы всё ещё в начале пути, и я невероятно воодушевлён будущим. Если мы сможем решить задачу физического здравого смысла, у нас появится реальный шанс построить по-настоящему интеллектуальные машины — способные преобразить не только робототехнику, но и всё, что взаимодействует с физическим миром.
Настоящий интеллект роботов начинается с физического здравого смысла.
#роботы #технология