Представляю перевод статьи венчурного инвестора Санья Оджа и комментарий Яна Лекуна на нее
Ян Лекун занимает странное, почти мифическое положение в современном искусственном интеллекте: он и отец-основатель революции в области глубокого обучения, и самый красноречивый внутренний диссидент. На протяжении многих лет он в одиночку размахивал ярко-красным флагом на острове, о существовании которого остальные даже не подозревали.
В то время как мейнстрим в сфере ИИ вступил в эпоху законов масштабирования — «больше моделей, больше наборов данных, всё лучше», — Ян продолжал настаивать на том, что одно лишь масштабирование не приведёт нас к интеллекту, не говоря уже об искусственном общем интеллекте. Преобладающая парадигма была не столько ошибочной, сколько неполной: да, это мощный протез для распознавания образов, но не путь к рассуждению, пониманию или автономности.
И в течение многих лет это сообщение вызывало у него профессиональное закатывание глаз и шквал твитов. Его считали «старой гвардией», которая кричит: «Это не будет масштабироваться вечно!» — в залах, полных людей, которые верят, что количество параметров — это судьба.
Затем, на прошлой неделе, ветер переменился. Илья Суцкевер — соучредитель OpenAI и один из архитекторов эпохи масштабирования — в подкасте Дваркеша сказал, что одно лишь масштабирование не приведёт нас к созданию общего искусственного интеллекта и что «чего-то важного не хватает». Его слова перекликались с тем, что Лекун кричал с вершины горы на протяжении последних лет.
И всё же реакция была совершенно разной. Комментарий Ильи вызвал любопытство, согласие и оптимизм. Лекун, наблюдавший за происходящим со своего острова, ретвитнул мем, иллюстрирующий двойные стандарты:
Недавний пост ученого из Open AI Ноама Брауна показывает, в каком состоянии находится отрасль. Если прислушаться к мнению исследователей, а не к тем, кто пишет гадости в твиттере, то можно прийти к удивительному выводу:
- Нынешней парадигмы достаточно для достижения огромного экономического эффекта.
- Для создания AGI/ASI потребуются прорывы за пределы существующей парадигмы.
- Эти прорывы, скорее всего, произойдут в течение 5–20 лет.
В этой области больше согласия, чем разногласий. Даже такие неисправимые оптимисты, как Демис, Шолле и Дарио, признают, что чего-то не хватает. Всем остальным понадобилась ересь Ильи, чтобы обратить на это внимание.
Так что же именно представляет собой мировоззрение, которое Ян отстаивает на своём одиноком острове?
Центральное противоречие: обучение против рассуждений
Критика Яна никогда не сводилась к тому, что «большие языковые модели бесполезны». Она была более точной: большие языковые модели впечатляют, они меняют экономику, но их архитектура несовершенна. Они отлично предсказывают, какие слова последуют за другими словами, но не очень хорошо понимают мир, который описывают эти слова.
Мейнстрим делает ставку на простую идею: если мы увеличим модель до достаточно больших размеров и предоставим ей достаточно данных, то интеллект проявится как эмерджентное свойство размера. Лекун категорически отвергает эту предпосылку. Он утверждает, что прогнозирование не может заменить понимание.
Человек может выучить наизусть все существующие кулинарные книги и при этом не знать, как приготовить яичницу-болтунью. Человеческий интеллект заключается не в воспроизведении шаблонов, а в наличии внутреннего понимания того, как устроен мир. Мы носим в себе ментальные модели — объектов, сил, намерений, физических законов, причинно-следственных связей, — которые постоянно совершенствуются по мере нашего взаимодействия с миром. Эти модели позволяют нам ориентироваться в незнакомых ситуациях, определять намерения, представлять последствия и принимать решения в условиях неопределённости.
LLM не обладают такой внутренней моделью. Они манипулируют символами без обоснования. Они генерируют язык без какого-либо встроенного смысла физики, психологии или причинно-следственной связи. Для Лекуна они являются “поверхностными учениками” - системами, которые бегло имитируют понимание, но не осуществляют его.
Он выступает за обучение без учителя, выходящее за рамки работы с текстом: парадигму, в которой машины учатся так же, как животные и дети, — наблюдая за миром, формируя ожидания относительно того, что должно произойти дальше, и корректируя эти ожидания, когда реальность им противоречит. В этой концепции интеллект извлекается не из размеченных наборов данных или тщательно отобранных корпусов текстов, а из постоянного противоречия между прогнозом и неожиданностью.
Его предложения, такие как Joint Embedding Predictive Architecture (JEPA) и более широкие концепции моделей мира, направлены на формализацию этой идеи. Они основаны на убеждении, что система искусственного интеллекта не может рассуждать о мире, который она не пытается предсказать, и не может предсказывать мир, который она не пытается понять.
Так что же предлагает Лекун?
Там, где другие видят кривые масштабирования, Лекун видит энергетические ландшафты.
Его энергетические модели (EBM) представляют обучение как формирование потенциального поля, в котором достоверные интерпретации мира располагаются в долинах с низким уровнем энергии, а противоречия отталкиваются. Это совершенно иная эпистемология: вместо максимизации вероятности — минимизация несоответствий. Вместо генерации токенов — соблюдение ограничений.
Эта идея кажется пугающе сложной с технической точки зрения, но лежащая в её основе интуиция поразительно проста. Мозг отвергает то, что не имеет смысла. Модели на основе энергии пытаются сделать то же самое. Представьте, что энергия — это «показатель осмысленности»:
- Низкая энергия = «это соответствует действительности»
- Высокая энергия = «это противоречиво или невозможно»
Вы делаете это автоматически: лошадь с крыльями? Высокая энергия. Чашка, падающая вверх? Очень высокая энергия. Собака, гоняющаяся за мячом? Низкая энергия.
EBM — это просто математический способ научить машины тому же инстинкту: отличать правдоподобное от абсурдного. В отличие от больших языковых моделей, которые с радостью генерируют поэтические невозможности, EBM отдают предпочтение согласованности, а не корреляции.
В этом суть мировоззрения Лекуна. Оно уходит корнями в физику и когнитивистику, а не в статистику. Он считает, что восприятие и мышление должны иметь общую основу — непрерывный процесс, минимизирующий затраты энергии, — а не быть временно склеенными с помощью подсказок или обучения с подкреплением. По его мнению, трансформеры — это триумф инженерной мысли, но они концептуально хрупки: «У них нет здравого смысла, потому что у них нет модели мира».
Политическая экономия разногласий по поводу ИИ
Инакомыслие Лекуна имеет и социологическое измерение. Основная идея ИИ — особенно в лабораториях Кремниевой долины — заключается в согласованности, контроле и экзистенциальном риске. Лекун называет это «ИИ-пессимизмом», моральной паникой, которая путает узкое языковое моделирование с когнитивными способностями человеческого уровня. Он утверждает, что интеллект по своей сути не опасен и что чрезмерное внимание к контролю препятствует открытым исследованиям и демократизации. Его позиция совпадает с позицией сторонников открытого исходного кода: он считает, что прогресс должен идти от открытой науки, а не от закрытых вычислительных империй нескольких лабораторий.
Это ставит его в противоречие с политической экономией ИИ в 2025 году, где доминируют секретность, советы по безопасности и политика выпуска моделей. Критика Лекуна в конечном счёте касается свободы исследований: та же независимость, которая отличала его в первые годы работы в Bell Labs и Нью-Йоркском университете, теперь заставляет его скептически относиться к централизации и нарративам, основанным на страхе.
Почему Лекун имеет значение
В области, склонной к чрезмерной экстраполяции, Лекун предлагает долгосрочную константу. Он напоминает исследователям в области ИИ, что обучение, восприятие и мышление — это не побочные эффекты более мощных графических процессоров, а сложные проблемы репрезентации.
Если эпоха трансформеров представляет собой «ньютоновскую фазу» ИИ, когда данные и вычисления объясняют всё, то Лекун уже выступает за «эйнштейновскую поправку»: парадигму, которая возвращает геометрию, причинно-следственные связи и воплощённое прогнозирование в центр познания. Независимо от того, возобладает ли его точка зрения, она гарантирует, что в исследованиях ИИ сохранится важное противоречие между эмпиризмом и пониманием.
Ян Лекун отличается от большинства специалистов в области ИИ не тем, что отрицает прогресс, а тем, что по-другому его определяет. Там, где другие видят успех в масштабировании контрольных показателей, он видит застой в понимании. Там, где другие боятся неконтролируемого интеллекта, он боится интеллектуальной самоуспокоенности. Там, где другие оптимизируют функции потерь, он задаётся вопросом, что значит учиться без подсказок.
В эпоху моделей с триллионами параметров неортодоксальность Лекуна служит напоминанием о том, что будущее интеллекта — человеческого или искусственного — может зависеть не столько от прогнозирования, сколько от воображения. В конце концов, эта область науки движется в сторону того острова, который он отказался покидать.
Статья Санья Оджа опубликована 1 декабря 2025 г.
Комментарий Яна Лекуна на статью
Меня вполне можно переубедить, но только с помощью доказательств.
Это интересная статья о моём несколько противоречивом мнении о дальнейшем развитии исследований в области ИИ.
Мой интерес к моделям мира восходит к моей докторской диссертации 1986 года, когда я понял, что backprop является аналогом метода сопряженных состояний в планировании траекторий на основе моделей. Было очевидно, что для использования нейронных сетей в управлении необходимо обучить передовую (дифференцируемую) модель управляемой системы.
Я не стал работать над этим сразу (я сосредоточился на восприятии). Но Деррик Нгуен и покойный Берни Видроу опубликовали на IJCNN в 1990 году (я был председателем сессии) свою работу "Поддержка грузовиков", в которой показали, как можно разработать "модель мира", а затем разработать политику с помощью обратной связи во времени.
В конце концов, я понял, что нужно обучать "общую модель мира" на основе видео. Поэтому в конце 2000-х я начал работать над методами самоконтроля для прогнозирования видео. Модели были невероятно простыми по сегодняшним меркам.
В 2016 году я выступил с основным докладом на конференции NeurIPS, в котором утверждал, что будущее ИИ - за мировыми моделями и планированием на основе моделей. С тех пор я потратил все время на то, чтобы заставить это работать: самостоятельное обучение по видео, модели мира и планирование.
С 2016 по 2020 год мы добились некоторого прогресса в прогнозировании видео, прогнозируя пиксели с помощью генеративных архитектур с регуляризованными скрытыми переменными, используя различные архитектуры и критерии обучения (например, GAN). Но в то время как это работало для простых видео (например, видеоигр или карт сегментации), для обычных видео это никогда не работало в полной мере: прогнозы были размытыми, потому что для данного сегмента видео существует бесконечное количество вероятных продолжений.
Затем, примерно в 2020 году, стало ясно, что лучший способ применить самоконтролируемое обучение к изображениям, видео и другим зашумленным сигналам - это использовать не генеративную архитектуру, а совместную архитектуру встраивания. Наши группы и другие специалисты добивались отличных результатов благодаря совместным архитектурам встраивания (без предсказания пикселей), используя различные методы. В 2021 году мы предложили два метода: Barlow Twins и VICReg. Наши коллеги из FAIR-Paris также добились прогресса в разработке того, что в итоге получило название DINO. Совместное внедрение превзошло генеративные подходы.
В 2021-2022 годах я предложил JEPA в качестве ключевой архитектуры для обучения моделей мира. Основной вывод заключался в том, что прогнозирование должно осуществляться не на пиксельном уровне, а в абстрактном пространстве представлений. В 2022 году я опубликовал большую статью, в которой объяснил свое видение того, как, по моему мнению, должны продвигаться исследования в области искусственного интеллекта в течение следующего десятилетия.
Я знал об удивительной производительности генеративных архитектур для дискретных последовательностей символов, таких как текст. Мои коллеги получали потрясающие результаты (да, это было еще до ChatGPT). Но меня самого интересовало другое: как заставить системы искусственного интеллекта изучать, как работает реальный мир?
Для меня LLM были интересны, но они решали проблему, совершенно отличную от той, которая интересовала меня. Я знал, что генеративные архитектуры, включая LLM, не могут понять, как работает физический мир.
Я высказал это публично, и меня подняли на смех. Но мне хорошо знакома ситуация, когда у кого-то есть мнение, противоречащее общепринятому 😅
С тех пор я сплотил вокруг этой идеи множество студентов, аспирантов и коллег. Мы добились значительного прогресса в обучении моделей мира, основанных на JEPA, с помощью видео.
Сейчас я создаю компанию, чтобы воплотить это в жизнь.
Комментарий Яна Лекуна опубликован в социальной сети 25 декабря 2025 г.