Найти в Дзене

World Models: следующая эволюция ИИ, которая научит нейросети «здравому смыслу» и физике

Недавно я публиковал новость о том, что стартап Advanced Machine Intelligence Labs под руководством Яна ЛеКуна привлёк 1,03 миллиарда долларов посевных инвестиций. Он планирует развивать радикально иной подход к искусственному интеллекту, и в сегодняшней статье я хочу подробнее рассказать, в чем заключается суть этого подхода. Итак, что на сегодняшний день умеют ChatGPT, Gemini или Grok? Они могут написать симфонию, сдать экзамен на адвоката и создать код для сложного сайта за секунды. Кажется, что искусственный интеллект уже всемогущ. Но если вы попросите нейросеть управлять роботизированной рукой, чтобы пожарить яичницу, она, скорее всего, раздавит яйцо, сожжет сковородку и устроит пожар. Почему? Потому что современные языковые модели (LLM) гениально жонглируют словами, но абсолютно не понимают, как устроен физический мир. Они не знают, что стекло бьется, вода течет вниз, а если положить предмет в коробку, он никуда не исчезнет. Чтобы решить эту проблему и создать настоящи
Оглавление

Недавно я публиковал новость о том, что стартап Advanced Machine Intelligence Labs под руководством Яна ЛеКуна привлёк 1,03 миллиарда долларов посевных инвестиций. Он планирует развивать радикально иной подход к искусственному интеллекту, и в сегодняшней статье я хочу подробнее рассказать, в чем заключается суть этого подхода.

Итак, что на сегодняшний день умеют ChatGPT, Gemini или Grok? Они могут написать симфонию, сдать экзамен на адвоката и создать код для сложного сайта за секунды. Кажется, что искусственный интеллект уже всемогущ. Но если вы попросите нейросеть управлять роботизированной рукой, чтобы пожарить яичницу, она, скорее всего, раздавит яйцо, сожжет сковородку и устроит пожар.

Почему? Потому что современные языковые модели (LLM) гениально жонглируют словами, но абсолютно не понимают, как устроен физический мир. Они не знают, что стекло бьется, вода течет вниз, а если положить предмет в коробку, он никуда не исчезнет.

Чтобы решить эту проблему и создать настоящий сильный ИИ (AGI), ученые обратились к совершенно новому классу архитектур. Знакомьтесь: World Models (Модели Мира).

В чем проблема привычных нейросетей?

Архитектура на которой работают ChatGPT, Claude, Gemini основана на авторегрессии — предсказании следующего токена (слова или пикселя) на основе огромной базы статистики. Например, если нейросеть пишет: «Уронил стакан на пол, и он…», то она дописывает «разбился», потому что в обучающих ее текстах эти слова часто стоят рядом. Однако нейронка не понимает гравитации. Она не видит осколков. Она просто статистический попугай с гигантской памятью.

Из-за этого LLM страдают галлюцинациями. Они не умеют логически планировать на 10 шагов вперед и не обладают «здравым смыслом». Чтобы ИИ перестал быть просто генератором текста и смог управлять роботами, машинами и сложными процессами, ему нужна внутренняя симуляция реальности.

Что такое World Model?

Термин «World Model» был популяризирован Дэвидом Ха и Юргеном Шмидхубером в 2018 году, а сегодня главным евангелистом этого подхода является Ян ЛеКун (вице-президент и главный ИИ-ученый в команде Цукерберга).

World Model — это архитектура ИИ, которая строит внутреннее представление об окружающей среде, чтобы понимать причинно-следственные связи и предсказывать будущее.

Как это работает у людей? Представьте, что вы едете на велосипеде и видите впереди яму. Ваш мозг мгновенно прокручивает симуляцию: «Если я поеду прямо — колесо попадет в яму, я упаду и разобью колено. Если я поверну руль влево — я объеду яму и сохраню равновесие». Вы еще ничего не сделали, но ваш мозг уже «сгенерировал» будущее в безопасной внутренней песочнице.

World Models пытаются дать нейросетям точно такую же «песочницу» в их цифровых мозгах.

Как устроена архитектура World Models?

В отличие от LLM, которые просто переводят текст в текст, классическая Модель Мира состоит из трех главных компонентов:

  1. Сенсор (V-модель), эдакое сжатие хаоса реальности. Когда вы смотрите на дорогу, вы не анализируете каждый листик на дереве, вы выделяете главное: машины, светофор, пешеходы. ИИ делает то же самое — сжимает сырые данные (видео, звук) в компактный «вектор состояния».
  2. Память (M-модель) — запоминает прошлый контекст. «Машина слева ехала быстро, значит, она, вероятно, продолжит движение».
  3. Предиктор — предсказатель будущего. Самая важная часть. Он берет текущее состояние мира, а также возможное действие (например, «нажать на тормоз») и предсказывает, как изменится мир на следующем шаге.

Главный прорыв подхода Яна ЛеКуна заключается в том, что ИИ предсказывает будущее не попиксельно (что требует гигантских вычислительных мощностей), а концептуально. Модель учится игнорировать неважное (как колышется трава) и концентрироваться на физике (куда летит мяч).

Где World Models применяются уже сейчас?

Мы находимся на самом пороге внедрения этих технологий, но результаты уже поражают:

  • Sora от OpenAI и Kling AI. Когда OpenAI показала генератор видео Sora, многие эксперты назвали его первой примитивной Моделью Мира. Чтобы нарисовать реалистичное видео едущего по грязи джипа, ИИ должен понимать физику отражений, гравитацию, перспективу и то, как грязь вылетает из-под колес. Sora — это не просто генератор пикселей, это дата-движок, симулирующий физику.
  • Автопилоты (Wayve, Tesla FSD v12). Британский стартап Wayve использует World Models для беспилотных авто. Их ИИ не просто распознает знаки, он предсказывает поведение других водителей на основе внутренней модели физики и социума на дороге.
  • Робототехника (Google RT-2, Figure 01). Чтобы робот-гуманоид мог принести вам яблоко из холодильника, он должен понимать, что яблоко мягкое (нельзя сильно сжимать), что оно может укатиться (форма сферы) и что холодильник нужно сначала открыть. World Models позволяют роботам обучаться физике в виртуальных симуляторах, а затем применять эти знания в реальном мире.

Почему за этим будущее

Текстовые данные в интернете заканчиваются. По оценкам ученых, LLM скоро прочитают все существующие книги и статьи. Но наши дети не учатся по Википедии. Они учатся, бросая игрушки на пол, трогая горячее, падая и наблюдая за физикой.

World Models позволяют ИИ обучаться так же: через наблюдение за видео (миллионы часов на YouTube) и через взаимодействие со средой.

Переход от LLM к World Models — это эволюционный скачок. Мы переходим от ИИ, который умеет «красиво говорить», к ИИ, который умеет «понимать, планировать и действовать». И именно этот класс архитектур, скорее всего, подарит нам надежных домашних роботов, полностью автономные автомобили и научные открытия, о которых мы сегодня даже не можем мечтать.