Найти в Дзене
DigiNews

Физический интеллект, последняя ставка ветерана Stripe Лачи Грума, создаёт самые обсуждаемые ИИ-мозги для роботов в Силиконовой долине

Если у сооснователя Lachy Groom есть сомнения, он их не показывает. Он работает с теми, кто десятилетиями занимается этой задачей и верит, что время наконец пришло — и этого ему достаточно. Снаружи единственное, что выдает штаб-квартиру компании Physical Intelligence в Сан-Франциско, — это символ π, отличающийся по оттенку от остальной двери. Зайдя внутрь, я сразу попадаю в водоворот активности. Ни стойки ресепшн, ни яркой логотипной подсветки — ничего подобного. Внутри помещение напоминает гигантский бетонный ящик, лишь слегка смягчённый хаотичным нагромождением длинных столов из светлого дерева. Некоторые явно предназначены для обедов: на них коробки с печеньем Girl Scout, банки с Вегемитом (похоже, тут есть австралиец) и проволочные корзинки, переполненные приправами. Остальные столы рассказывают совсем другую историю. На большинстве — мониторы, запчасти роботов, клубки чёрных проводов и полностью собранные роботизированные манипуляторы, пытающиеся освоить повседневные задачи. Во вр

Если у сооснователя Lachy Groom есть сомнения, он их не показывает. Он работает с теми, кто десятилетиями занимается этой задачей и верит, что время наконец пришло — и этого ему достаточно.

Снаружи единственное, что выдает штаб-квартиру компании Physical Intelligence в Сан-Франциско, — это символ π, отличающийся по оттенку от остальной двери. Зайдя внутрь, я сразу попадаю в водоворот активности. Ни стойки ресепшн, ни яркой логотипной подсветки — ничего подобного.

Внутри помещение напоминает гигантский бетонный ящик, лишь слегка смягчённый хаотичным нагромождением длинных столов из светлого дерева. Некоторые явно предназначены для обедов: на них коробки с печеньем Girl Scout, банки с Вегемитом (похоже, тут есть австралиец) и проволочные корзинки, переполненные приправами. Остальные столы рассказывают совсем другую историю. На большинстве — мониторы, запчасти роботов, клубки чёрных проводов и полностью собранные роботизированные манипуляторы, пытающиеся освоить повседневные задачи.

Во время моего визита один манипулятор складывает чёрные брюки — или пытается. Дело движется не очень. Другой с упорством пытается вывернуть рубашку наизнанку, будто намерен в итоге добиться успеха, просто не сегодня. Третий, похоже, нашёл своё призвание: он быстро чистит цуккини, после чего должен переложить стружку в отдельную ёмкость. С чисткой пока всё в порядке, по крайней мере.

«Представьте ChatGPT, но для роботов», — говорит мне Сергей Левин, указывая на разворачивающийся в помещении моторизованный балет. Левин, доцент Калифорнийского университета в Беркли и один из основателей Physical Intelligence, обладает доброжелательной внешностью человека в очках, привыкшего объяснять сложные концепции тем, кто не сразу их улавливает.

-2

То, что я вижу, по его словам, — фаза тестирования непрерывного цикла: данные собираются на роботизированных станциях здесь и в других местах — на складах, в домах, где бы ни удалось развернуть лабораторию — и используются для обучения универсальных базовых моделей для роботов. Когда исследователи обучают новую модель, её возвращают на такие станции для проверки. Манипулятор-гладильщик — чей-то эксперимент. Как и робот, выворачивающий рубашку. А тот, что чистит цуккини, возможно, проверяет, может ли модель обобщить свои навыки на другие овощи, научившись движениям так хорошо, чтобы справиться с яблоком или картошкой, которых раньше не видел.

Компания создаёт тестовые кухни в этом здании и за его пределами — в том числе в частных домах, — используя коммерчески доступное оборудование, чтобы роботы сталкивались с разными условиями и задачами. Рядом стоит сложная кофемашина, и я сначала думаю, что она для сотрудников, но Левин поясняет: нет, её используют роботы. Вся сварённая латте с пенкой — данные, а не бонус для десятков инженеров, склонившихся над ноутбуками или своими механическими экспериментами.

Сами роботы намеренно лишены блеска. Такие манипуляторы стоят около 3500 долларов, и это, по словам Левина, «огромная наценка» от поставщика. Если бы их производили самостоятельно, себестоимость упала бы ниже 1000. Пару лет назад, говорит он, робототехник был бы поражён, что эти устройства вообще могут что-то делать. Но в этом и суть — хороший интеллект компенсирует плохое «железо».

Пока Левин отходит, ко мне подходит Лачи Грум, двигающийся по помещению с деловитостью человека, у которого одновременно происходит полдюжины дел. В 31 год у Грума всё ещё остался свежий облик «чудо-мальчика» Кремниевой долины — титул, который он получил рано, продав первый свой стартап спустя девять месяцев после его запуска в 13 лет в родной Австралии (отсюда и Вегемит).

Когда я подошёл к нему ранее, в момент, когда он встречал небольшую группу посетителей в худи, его реакция на мою просьбу о встрече была мгновенной: «Категорически нет, у меня совещания». Теперь у него, может быть, десять минут.

Он нашёл то, что искал, когда начал отслеживать научные публикации из лабораторий Левина и Челси Финн — бывшей докторантки Беркли, а ныне возглавляющей собственную лабораторию в Стэнфорде, специализирующуюся на обучении роботов. Их имена постоянно появлялись во всём интересном в робототехнике. Услышав слухи, что они могут что-то запускать, он разыскал Карола Хаусмана, исследователя Google DeepMind, преподававшего в Стэнфорде, и узнал, что тот тоже участвует. «Это была одна из тех встреч, после которых ты выходишь и понимаешь: вот оно».

Грум никогда не планировал становиться полноценным инвестором, хотя при его репутации кто-то мог бы задаться вопросом, почему нет. После ухода из Stripe, где он был одним из первых сотрудников, он около пяти лет работал ангельским инвестором, вложившись на ранних стадиях в Figma, Notion, Ramp и Lattice, одновременно ища компанию, которую мог бы основать или присоединиться к ней. Его первая инвестиция в робототехнику — Standard Bots — была в 2021 году и вернула его в полюбившуюся с детства сферу, когда он собирал Lego Mindstorms. По его шутке, «инвестором я отдыхал намного больше». Но инвестиции были лишь способом оставаться в движении и знакомиться с людьми, а не целью. «Я искал пять лет компанию, с которой можно было бы начать после Stripe, — говорит он. — Хорошие идеи в подходящее время с хорошей командой — чрезвычайно редки. Всё дело в исполнении, но даже если ты изо всех сил исполняешь плохую идею, она остаётся плохой».

-3

Двухлетняя компания уже привлекла свыше миллиарда долларов, и, когда я спрашиваю о запасе прочности, он быстро уточняет, что тратит эти деньги не так уж много. Основные расходы — на вычисления. Через мгновение он признаёт, что при правильных условиях и партнёрах привлек бы ещё. «Нет предела тому, сколько денег мы можем эффективно использовать, — говорит он. — Всегда можно добавить мощности».

Особую необычность этой схемы придаёт то, чего Грум не даёт своим инвесторам: чётких сроков превращения Physical Intelligence в прибыльный бизнес. «Я не даю инвесторам ответов по коммерциализации, — говорит он об участниках, в числе которых Khosla Ventures, Sequoia Capital и Thrive Capital, оценивших компанию в 5,6 миллиарда долларов. — Это странно, но люди это терпят». И действительно терпят, хотя, возможно, не всегда. Поэтому компании выгодно быть хорошо профинансированной — не потому что это необходимо, а чтобы команда могла принимать долгосрочные решения без компромиссов.

Куан Вуонг, ещё один сооснователь, перешедший из Google DeepMind, объясняет, что стратегия строится на кросс-эмбодимент-обучении и разнообразных источниках данных. Если завтра кто-то создаст новую аппаратную платформу, им не придётся начинать сбор данных с нуля — можно будет перенести всё, что модель уже знает. «Предельные затраты на интеграцию автономии в новую робототехническую платформу, какой бы она ни была, становятся намного ниже», — говорит он.

Компания уже работает с небольшим числом компаний в разных секторах — логистика, продуктовые магазины, шоколадная фабрика через дорогу — чтобы проверить, достаточно ли хороши их системы для реальной автоматизации. По словам Вуонга, в некоторых случаях — уже достаточно. Подход «любая платформа, любая задача» охватывает настолько широкую область, что позволяет уже сейчас начать внедрять задачи, готовые к автоматизации.

Physical Intelligence не одинока в погоне за этой идеей. Гонка за созданием универсального роботизированного интеллекта — фундамента для более узких приложений, подобно LLM-моделям, покорившим мир три года назад, — набирает обороты. Основанная в 2023 году питтсбургская Skild AI в этом месяце привлекла 1,4 миллиарда долларов при оценке в 14 миллиардов и идёт явно другим путём. В то время как Physical Intelligence сосредоточена на чистых исследованиях, Skild AI уже коммерчески внедрила свой «всеохватный» Skild Brain, заявив о 30 миллионах выручки всего за несколько месяцев в сферах безопасности, складов и производства.

-4

Skild даже публично критикует конкурентов, утверждая на своём блоге, что большинство «базовых моделей робототехники» — это лишь замаскированные визуально-языковые модели, которым не хватает «истинного физического здравого смысла», поскольку они слишком полагаются на предобучение в интернете, а не на физическое моделирование и реальные данные с роботов.

Это серьёзное философское расхождение. Skild AI делает ставку на то, что коммерческое внедрение создаёт «вихревой эффект» данных, улучшающий модель с каждым новым сценарием. Physical Intelligence делает ставку на то, что сопротивление соблазну быстрой коммерциализации позволит создать превосходный общий интеллект. Кто из них «более прав» — покажут годы.

Тем временем Physical Intelligence действует с той необычайной ясностью, которую Грум описывает как ключевое преимущество. «Это такая чистая компания. У исследователя возникла потребность — мы собираем данные, чтобы её удовлетворить, или новое оборудование, или что угодно — и просто выполняем. Нам не диктуют извне». У компании был план на 5–10 лет, соответствующий тому, что команда считала возможным. К 18-му месяцу они его полностью перешагнули.

В компании около 80 сотрудников, и они планируют расти, хотя Грум говорит, что «надеется — как можно медленнее». Самое сложное, по его словам, — это «железо». «Аппаратная часть — это очень сложно. Всё, что мы делаем, намного тяжелее, чем у софтверных компаний. Железо ломается, приходит с задержками, тормозя тесты. Соображения безопасности усложняют всё».

Когда Грум встаёт, чтобы бежать на следующую встречу, я остаюсь наблюдать за роботами, продолжающими тренировку. Брюки всё ещё не сложены. Рубашка упрямо остаётся лицевой стороной наружу. А стружка от цуккини аккуратно накапливается.

Возникают очевидные вопросы, включая мой собственный: хочет ли кто-то вообще робота на кухне, чистящего овощи, как быть с безопасностью, как поведут себя собаки при виде механического захватчика в доме, решают ли все эти усилия действительно важные задачи или создают новые. Внешние наблюдатели сомневаются в прогрессе компании, достижима ли её цель и имеет ли смысл делать ставку на общий интеллект вместо конкретных приложений.

Если у Грума и есть сомнения, он их не показывает. Он работает с людьми, которые десятилетиями решают эту задачу и теперь считают, что время наконец пришло. Этого ему достаточно.

К тому же, Кремниевая долина с самого начала поддерживает таких, как Грум, предоставляя им большую свободу, зная, что даже без чёткого пути к коммерциализации, без сроков и определённости насчёт будущего рынка, они всё равно найдут выход. Это не всегда срабатывает, но когда работает — оправдывает множество неудач.

Всегда имейте в виду, что редакции могут придерживаться предвзятых взглядов в освещении новостей.

Автор – Connie Loizos

Оригинал статьи