Найти в Дзене
КОСМОС

Илон Маск не понимает, как работает искусственный интеллект

Оглавление

Его невежество может уничтожить Tesla

Что, миллиардер, который на самом деле не технический гений? Удивительно, правда? Почти как будто миллиардеры зарабатывают свои горы денег не благодаря таланту, а за счёт эксплуатации труда и рынка. Но да, Илон Маск снова и снова совершает одну и ту же катастрофическую, но простую ошибку в отношении искусственного интеллекта. И это — огромная проблема, ведь он пытается превратить Tesla из компании по производству электромобилей в AI-платформу, которая, по его словам, «воплощает искусственный интеллект в физическом мире».

«История в деталях» — телеграм канал для тех, кто любит видеть прошлое без прикрас, через неожиданные факты и забытые мелочи. Погружайтесь в историю так, как будто вы там были. Подписывайтесь!

Однако причина, по которой автопилот Tesla FSD (Full Self Driving) ведёт себя, как «пьяный старик с деменцией», а гуманоидный робот Optimus двигается с грацией усталого C-3PO, кроется в элементарном — в том, что Маск просто не удосужился понять основы технологий, на которых всё это построено.

Робототехник против миллиардера

Почти десять лет подряд Маска публично критикует Родни Брукс, один из ведущих робототехников в мире. И если кто-то имеет право указывать на ошибки Маска, то именно он. Недавно Брукс опубликовал эссе, в котором раскритиковал всю индустрию гуманоидных роботов и инвесторов, заявив, что они выбрасывают деньги на ветер, и этот пузырь неизбежно лопнет. Но особенно остро его критика была направлена на робот-программу Optimus от Tesla.

Главная ошибка — в данных

Проблема в том, на каких данных обучают эти ИИ-системы.

Компании вроде Tesla обучают своих роботов, показывая им видео, где люди выполняют бытовые задачи — например, складывают одежду, — и почти не дают другой информации. Брукс называет этот подход «чистой фантазией».

Почему? Потому что человек использует не только зрение, когда выполняет такие действия.

Мы опираемся на осязание гораздо сильнее, чем на визуальные данные. В наших руках находится около 17 000 специализированных рецепторов, способных улавливать изменения толщиной в 40 микрометров (примерно половина толщины человеческого волоса), и всё это передаёт информацию в мозг со скоростью около миллиарда бит в секунду. Проще говоря, одна человеческая рука посылает мозгу более 2 гигабайт сверхточных данных каждую секунду! Именно такая плотность данных, в сочетании с ловкостью и скоростью движений, позволяет нам выполнять даже простые задачи.

Без этой обратной связи, когда человек вынужден полагаться только на зрение, всё становится гораздо труднее.

Руки робота Optimus, конечно, впечатляют, но их сенсорика в тысячи раз менее точна, а ловкость и скорость несопоставимы с человеческими пальцами.

В результате ИИ обучается на неполном наборе данных. Как отмечает Брукс, у нас нет традиции собирать данные о тактильных ощущениях — следовательно, эти данные просто не попадают в систему обучения.

Почему это обречено на провал

Возьмём пример с складыванием одежды. Мы чувствуем гибкость ткани, её вес, текстуру — и это помогает нам аккуратно и быстро сложить вещь. А ИИ, обучающийся только по видео, не имеет доступа ко всем этим параметрам.

ИИ не думает — он просто распознаёт и воспроизводит закономерности в данных. Но если данные неполные, закономерности будут искажёнными. Он не сможет правильно интерпретировать происходящее и, значит, не сможет адекватно повторить действие.

Человек, на чьих действиях обучается ИИ, принимает решения, опираясь на гораздо более богатый поток информации, чем тот, который получает сама нейросеть. Поэтому, как говорит Брукс, оптимизировать такого робота невозможно, и вся программа обречена.

И это — базовый принцип машинного обучения. Настолько базовый, что его объясняют буквально в первых главах любого учебника по ИИ. Поэтому тот факт, что Маск допускает такую ошибку не только в этом многомиллиардном проекте, но и в других — просто поражает.

FSD: когда "автопилот" не видит очевидного

Возьмём другую историю — Tesla Full Self Driving.

Все крупные системы автономного вождения используют целый набор сенсоров, чтобы сформировать точную картину мира: лидары, радары, инфракрасные сенсоры, стереокамеры и т.д. Но не Tesla. Маск заставил инженеров отказаться от этого и использовать только камеры, потому что, по его логике, «человек тоже в основном полагается на зрение, значит, и ИИ сможет».

Проблема в том, что человеческое зрение — это не видеокамера.

Наш глаз — это примерно 576 мегапикселей разрешения, с динамическим диапазоном более 20 ступеней (что позволяет видеть детали и в тени, и в ярком свете) и частотой 30–60 кадров в секунду. Плюс, у нас есть объёмное восприятие — не только за счёт двух глаз, но и за счёт микродвижений головы, создающих эффект параллакса.

Камеры Tesla — это 5 мегапикселей, менее 10 ступеней динамического диапазона и максимум 36 кадров в секунду. И хотя их девять, они не дают настоящего 3D-эффекта — глубина пространства вычисляется косвенно, по картинке одной камеры.

В итоге Tesla Vision воспринимает мир совершенно иначе, чем человек. Её «зрение» в десятки раз менее точное. Например, там, где водитель видит велосипедиста, выезжающего из тёмного тоннеля, Tesla видит просто чёрное пятно. Там, где мы можем прочитать надпись на ярком солнце, её система видит лишь белое пятно.

Почему Tesla так отстаёт

Tesla обучает свой автопилот на данных, собранных с этих камер во время обычных поездок клиентов.

Но водители, чьи действия попадают в обучающую выборку, принимают решения на основе деталей, которых камера не видит. Следовательно, ИИ не может понять, почему человек свернул или притормозил — ведь у него нет доступа к тем же признакам. Он видит только результат, но не причину. Поэтому он либо создаёт ложные закономерности, либо путает причины и следствия.

Маск пытается заставить ИИ «думать как человек», хотя это невозможно. Машина воспринимает мир иначе, и её логика должна основываться на собственных сенсорных данных, а не на человеческих.

Отсюда — чудовищное отставание. Средняя дистанция, которую система FSD проезжает между критическими вмешательствами водителя, составляет всего 493 мили, тогда как у Waymo — 17 000. И именно поэтому Tesla безнадёжно проигрывает гонку за роботакси.

Когда невежество становится опасным

Это — элементарные принципы машинного обучения. Современные языковые модели, вроде ChatGPT, работают не потому, что у них «больше данных» или «мощнее серверы», а потому что они обучаются на правильно подготовленных данных нужного типа. Просто закинуть в систему кучу человеческой информации — бесполезно.

Подготовка качественных данных — долгий, дорогой и трудоёмкий процесс. Но Маск, по всей видимости, не хочет этого понимать. Он предпочитает упрощать, игнорировать предупреждения специалистов и верить в собственный гений.

В результате он снова и снова совершает одну и ту же ошибку — и тем самым демонстрирует не просто незнание основ, а опасное невежество, которое может стоить Tesla всего её будущего.