Найти в Дзене
Горячие новости

Генеральный директор Covariant по созданию ИИ, который помогает роботам учиться

Covariant была основана в 2017 году с простой целью: помочь роботам научиться лучше подбирать предметы. Это большая потребность среди тех, кто хочет автоматизировать склады, и это намного сложнее, чем может показаться. Большинство товаров, с которыми мы сталкиваемся, в какой-то момент прошли через склад. Это невероятно широкий диапазон размеров, форм, текстур и цветов.

Фирма Bay Area создала систему на основе искусственного интеллекта, которая обучает сетевых роботов улучшать выбор по мере их продвижения. Демонстрация на выставке ProMat в этом году показывает, насколько быстро подключенная рука способна идентифицировать, выбирать и размещать широкий спектр различных объектов.

Соучредитель и генеральный директор Питер Чен встретился с TechCrunch на выставке на прошлой неделе, чтобы обсудить роботизированное обучение, построение базовых моделей и, естественно, ChatGPT.

TechCrunch: Когда вы стартап, имеет смысл использовать как можно больше готового оборудования.

ПК: Да. Covariant начал с совсем другого места. Мы начали с чистого программного обеспечения и чистого ИИ. Все первые сотрудники компании были исследователями ИИ. У нас не было инженеров-механиков, никого из робототехники. Это позволило нам гораздо глубже проникнуть в ИИ, чем кому-либо другому. Если вы посмотрите на другие робототехнические компании [в ProMat], они, вероятно, используют какую-то готовую модель или модель с открытым исходным кодом - вещи, которые использовались в академических кругах.

Как ROS.

Да. ROS или библиотеки компьютерного зрения с открытым исходным кодом, которые великолепны. Но то, что мы делаем, принципиально отличается. Мы смотрим на то, что предоставляют академические модели ИИ, и этого недостаточно тихо. Академический ИИ создается в лабораторной среде. Они созданы не для того, чтобы выдерживать испытания реального мира - особенно испытания многих клиентов, миллионов навыков, миллионов различных типов предметов, которые должны обрабатываться одним и тем же ИИ.

Многие исследователи используют множество разных подходов к обучению. Чем отличается ваш?

Большая часть команды основателей была из OpenAI - например, трое из четырех соучредителей. Если вы посмотрите на то, что OpenAI сделала за последние три-четыре года в языковом пространстве, это, по сути, использование подхода базовой модели к языку. До недавнего ChatGPT существовало множество ИИ, обрабатывающих естественный язык. Поиск, перевод, определение настроений, обнаружение спама - там было множество ИИ на естественном языке. Подход перед GPT заключается в том, что для каждого варианта использования вы обучаете ему определенный ИИ, используя меньшее подмножество данных. Посмотрите на результаты сейчас, и GPT фактически отменяет область перевода, и он даже не обучен переводу. Подход базовой модели, по сути, заключается в том, что вместо использования небольших объемов данных, специфичных для одной ситуации, или подготовки модели, специфичной для одного обстоятельства, давайте подготовим большую обобщенную базовую модель на гораздо большем количестве данных, чтобы ИИ был более обобщенным.

Вы сосредоточены на выборе и размещении, но вы также закладываете основу для будущих приложений?

Определенно. Способность схватывать или выбирать и размещать, безусловно, является первой общей способностью, которую мы предоставляем роботам. Но если вы посмотрите за кулисы, там много понимания 3D или объектов. Существует множество когнитивных примитивов, которые можно использовать в будущих приложениях для роботов. При этом захват или выбор - это такое обширное пространство, что мы можем работать над этим некоторое время.

Сначала вы выбираете и размещаете, потому что в этом есть явная необходимость.

Существует явная потребность, а также явный недостаток технологий для этого. Интересно то, что если бы вы пришли на это шоу 10 лет назад, вы бы смогли найти роботов-сборщиков. Они просто не будут работать. Индустрия боролась с этим в течение очень долгого времени. Люди говорили, что это не сработает без ИИ, поэтому люди пробовали нишевый ИИ и готовый ИИ, но они не сработали.

Ваши системы загружаются в центральную базу данных, и каждый выбор информирует машины о том, как выбирать в будущем.

Да. Забавно то, что почти каждый предмет, к которому мы прикасаемся, в какой-то момент проходит через склад. Это почти центральное место для очистки всего в физическом мире. Когда вы начинаете с создания ИИ для складов, это отличная основа для ИИ, который выходит за пределы складов. Допустим, вы берете яблоко с поля и несете его на сельскохозяйственное предприятие - оно уже видело яблоко раньше. Он уже видел клубнику раньше.

Это один к одному. Я выбираю яблоко в центре выполнения заказов, поэтому я могу выбрать яблоко в поле. Более абстрактно, как эти знания могут быть применены к другим аспектам жизни?

Если мы хотим сделать шаг назад конкретно от Covariant и подумать о том, куда движется технологический тренд, мы видим интересную конвергенцию ИИ, программного обеспечения и мехатроники. Традиционно эти три области несколько отделены друг от друга. Мехатроника - это то, что вы найдете, когда придете на это шоу. Речь идет о повторяемом движении. Если вы поговорите с продавцами, они расскажут вам о надежности, о том, как эта машина может делать то же самое снова и снова.

Действительно удивительная эволюция, которую мы наблюдаем в Силиконовой долине за последние 15-20 лет, связана с программным обеспечением. Люди взломали код о том, как создавать действительно сложное и высокоинтеллектуальное программное обеспечение. Все эти приложения, которые мы используем, на самом деле люди используют возможности программного обеспечения. Теперь мы находимся на переднем крае искусственного интеллекта со всеми удивительными достижениями. Когда вы спрашиваете меня, что выходит за рамки складов, я вижу, что на самом деле происходит конвергенция этих трех тенденций для создания высокоавтономных физических машин в мире. Вам нужна конвергенция всех технологий.

Вы упомянули, что появился ChatGPT и ошеломил людей, создающих программное обеспечение для перевода. Это то, что происходит в технологии. Вы боитесь, что появится GPT и фактически сведет на нет работу, которую выполняет Covariant?

Это хороший вопрос для многих людей, но я думаю, что у нас было несправедливое преимущество в том, что мы начали с того же убеждения, что и OpenAI при создании базовых моделей. Общий ИИ - лучший подход, чем создание нишевого ИИ. Это то, чем мы занимались последние пять лет. Я бы сказал, что мы находимся в очень хорошем положении, и мы очень рады, что OpenAI продемонстрировал, что эта философия действительно хорошо работает. Мы очень рады сделать это в мире робототехники.