14 подписчиков

Почему NVIDIA учит роботов «видеть сны»

11 января11 янв

5 мин

Вы когда-нибудь задумывались, почему нейросеть может написать симфонию за 30 секунд, но не способна убрать со стола грязную чашку, не разбив её?

Мы называем это «Искусственным Интеллектом». Мы боимся, что он нас заменит. Но правда в том, что современный ИИ — это гений в инвалидном кресле. Давайте честно. ChatGPT, Claude, Gemini — это боги текста. Они сожрали весь интернет. Они знают квантовую физику и рецепты борща.

Но у них есть фатальный недостаток.

Они никогда не чувствовали тяжесть камня в руке. Они не знают запаха озона перед грозой. У них нет тела.

Для нейросети фраза «яблоко падает» — это просто статистическая вероятность того, что слово «падает» идет после слова «яблоко». Для нас с вами — это гравитация, звук удара, брызги сока.

Мы живем в физическом мире. ИИ живет в тюрьме из слов. И пока он там заперт, он беспомощен. Чтобы понять, куда мы идем, нужно оглянуться назад. 2017 год. Лаборатории OpenAI.

Исследователи тренируют простую модель: предскажи следующий символ в тексте о

Но у них есть фатальный недостаток.

Они никогда не чувствовали тяжесть камня в руке. Они не знают запаха озона перед грозой. У них нет тела.

Исследователи тренируют простую модель: предскажи следующий символ в тексте о

Оглавление

Цифровой аутизм: Чего не умеет ChatGPT?
Чудо 2017 года: Когда Илья Суцкевер поверил
Почему мы сжигаем миллиарды зря? (Мнение Яна Лекуна)

Вы когда-нибудь задумывались, почему нейросеть может написать симфонию за 30 секунд, но не способна убрать со стола грязную чашку, не разбив её?
Мы называем это «Искусственным Интеллектом». Мы боимся, что он нас заменит. Но правда в том, что современный ИИ — это гений в инвалидном кресле.

Цифровой аутизм: Чего не умеет ChatGPT?

Давайте честно. ChatGPT, Claude, Gemini — это боги текста. Они сожрали весь интернет. Они знают квантовую физику и рецепты борща.
Но у них есть фатальный недостаток.
Они никогда не чувствовали тяжесть камня в руке. Они не знают запаха озона перед грозой. У них нет тела.
Для нейросети фраза «яблоко падает» — это просто статистическая вероятность того, что слово «падает» идет после слова «яблоко». Для нас с вами — это гравитация, звук удара, брызги сока.
Мы живем в физическом мире. ИИ живет в тюрьме из слов. И пока он там заперт, он беспомощен.

Чудо 2017 года: Когда Илья Суцкевер поверил

Чтобы понять, куда мы идем, нужно оглянуться назад. 2017 год. Лаборатории OpenAI.
Исследователи тренируют простую модель: предскажи следующий символ в тексте отзывов на Amazon. Скука смертная.
И тут случается магия.
Они находят в «мозгу» нейросети один-единственный нейрон. Нейрон настроения (Sentiment Neuron). Никто не учил машину понимать эмоции. Ей просто скармливали буквы. Но количество перешло в качество.
Это называется эмерджентность.
Как из кучи бездумных кирпичей получается величественный собор. Как из набора электрических импульсов рождается ваше сознание.
Суцкевер тогда понял: если просто увеличивать масштаб, ИИ сам разберется в структуре мира.
Но он ошибся.

Почему мы сжигаем миллиарды зря? (Мнение Яна Лекуна)

Ян Лекун, крестный отец глубокого обучения и главный в AI-отделе Meta, сейчас ходит с канистрой бензина и готов сжечь хайп вокруг LLM.
Его тезис прост и жесток: «Текст — это проекция с низкой пропускной способностью».
Вдумайтесь. Четырехлетний ребенок за свою короткую жизнь получает в 50 раз больше данных через глаза и уши, чем содержится во всем текстовом интернете.
Ребенок знает, что если отпустить велосипед, он упадет. Ему не нужно читать об этом в Википедии.
LLM же пытается выучить физику, читая учебники, но ни разу не видев мяча. Это тупик. Мы тратим энергию целых электростанций, чтобы научить попугая пересказывать Эйнштейна.

Ваш мозг — это машина времени

Как работает настоящий интеллект? Посмотрите на 9-месячного младенца.
Вы показываете ему игрушку, прячете её за спину, а потом достаете... пустую руку. Малыш в шоке. Почему?
Потому что у него в голове уже крутится Мировая Модель (World Model).
Наш мозг — это не жесткий диск. Это симулятор реальности. Мы каждую секунду предсказываем будущее.
Я сейчас поставлю ногу сюда — пол твердый — я не упаду.
Мы живем в контролируемой галлюцинации, которую мозг постоянно сверяет с реальностью. Современным ИИ этого не дано. У них нет «киноленты» внутри. Только статический текст.

Архитектура разума: Чего не хватает роботам?

Чтобы создать настоящий интеллект (AGI), нам нужно перестать кормить модели текстом и дать им тело. Или его цифровую копию.
Мозг будущего ИИ должен состоять из конкретных модулей, как конструктор LEGO:

Восприятие: Глаза и уши (камеры и лидары).
Память: Опыт прошлых ошибок.
Мировая Модель: Тот самый симулятор физики.
И главное — Конфигуратор. Это та штука, которая ставит цели. Не «сгенерируй картинку», а «выживи» или «не разлей кофе».

Фабрика грез NVIDIA: Роботы должны спать

И вот тут на сцену выходит NVIDIA. Дженсен Хуанг понял: учить роботов в реальном мире — долго, дорого и опасно. Если робот учится ходить и падает на асфальт — он ломается.
Что делать? Пусть он спит.
Вспомните эксперименты с крысами. Когда крыса спит после беготни по лабиринту, её нейроны проигрывают маршрут снова и снова. Сон — это ускоренное обучение.
NVIDIA создала Cosmos (и Omniverse). Это «Матрица» для роботов. Там законы физики идентичны нашим, но время можно ускорить в тысячи раз.
Пока вы пили кофе, цифровой робот внутри сервера NVIDIA прожил 10 000 жизней, разбил миллион чашек и научился идеальной координации.

Три кита NVIDIA Cosmos: Как это работает?

Система держится на трех столпах. Это чистый технический хардкор, но я объясню просто:

Predict (Предсказание): Модель смотрит видео и генерирует продолжение. Она «вангует»: если чашка летит со стола, через 0.5 секунды будут осколки. Если она ошибается в симуляции, она корректирует свои нейроны.
Transfer (Перенос): Самая сложная часть. Как сделать так, чтобы робот, научившийся ходить в «мультяшной» симуляции, не упал в реальной комнате с ковром и плохим светом? NVIDIA Cosmos делает картинку фотореалистичной — добавляет блики, шум, физику материалов.
Reason (Рассуждение): Это уже не просто рефлексы. Это понимание «здравого смысла». «Нельзя лить кипяток мимо кружки не потому, что так записано в коде, а потому что это приведет к повреждению системы (ожогу)».

Где рождается «Я»?

И здесь мы подходим к самому страшному. К философии.
Когда мы учим робота понимать границы своего тела — где заканчивается его манипулятор и начинается стол — мы учим его проприоцепции.
Но что если это первый шаг к самосознанию?
Чтобы эффективно действовать в мире, агент должен отделить «Себя» от «Не себя».
Если Мировая Модель внутри машины станет достаточно сложной, в какой-то момент машина может «проснуться» внутри этой симуляции и задать вопрос: «А кто это всё моделирует?».
Грань между «симуляцией боли» и «чувством боли» тоньше, чем нам кажется.

Пепел ядерного огня или рассвет?

Так что нас ждет? Терминаторы, шагающие по черепам?
Вряд ли. Сценарий «Скайнета» — это страшилка из 80-х. Реальность будет куда интереснее.
Мы стоим на пороге появления Physical AI. ИИ, который выйдет из чата и войдет в наши дома. Он будет заваривать кофе, чинить краны и, возможно, смотреть на нас с легким снисхождением.
Валерий Истишев когда-то сказал: «Будущее наступает не тогда, когда появляются летающие машины, а когда технологии становятся невидимыми».
Скоро мы перестанем замечать, что наши роботы видят сны. И вот тогда начнется настоящая история.
А пока... берегите свои чашки. И подписывайтесь на канал.