Найти в Дзене
Aifory Pro

LeCun против ChatGPT: как новая модель от Meta учит ИИ «понимать», а не «угадывать слова»

Ян ЛеКун, главный AI-учёный Meta, представил очередной шаг в своей «альтернативной вселенной» искусственного интеллекта. Его подразделение FAIR выпустило VL-JEPA (Vision-Language Joint Embedding Predictive Architecture) — первую мультимодальную модель, которая принципиально отказывается от идеи генеративного ИИ в духе ChatGPT или Claude. Вместо того чтобы предсказывать следующее слово в предложении, она учится предсказывать смысл происходящего. Суть революции: от токенов — к эмбеддингам, от текста — к смыслу Чтобы понять прорыв, нужно увидеть разницу в подходе: Результаты: эффективность как главный козырь Такой подход даёт осязаемые преимущества в эффективности, что подтверждают тесты: Почему это важно? Дорожная карта к «здравомыслящему» ИИ VL-JEPA — не просто очередная модель. Это очередной кирпич в архитектуре мира, которую ЛеКун описывает годами: путь к созданию ИИ, который понимает, как устроен мир, а не просто умело компилирует текст. Практическое значение уже сейчас: Но это не

Ян ЛеКун, главный AI-учёный Meta, представил очередной шаг в своей «альтернативной вселенной» искусственного интеллекта. Его подразделение FAIR выпустило VL-JEPA (Vision-Language Joint Embedding Predictive Architecture) — первую мультимодальную модель, которая принципиально отказывается от идеи генеративного ИИ в духе ChatGPT или Claude. Вместо того чтобы предсказывать следующее слово в предложении, она учится предсказывать смысл происходящего.

Суть революции: от токенов — к эмбеддингам, от текста — к смыслу

Чтобы понять прорыв, нужно увидеть разницу в подходе:

  • Традиционные VLM (как GPT-4V): Видят изображение и начинают «сочинять» текст, предсказывая токен за токеном: «На картинке… [следующий токен]… виден… [следующий токен]… кот…». Модель тратит колоссальные ресурсы на моделирование всех возможных вариаций формы ответа.
  • VL-JEPA: Видит изображение и вопрос, затем работает в абстрактном семантическом пространстве. Она сразу предсказывает смысловой эмбеддинг (математическое представление смысла) ответа. Текстовый декодер включается в самый последний момент, только чтобы «озвучить» уже готовое понимание человеку. Это как если бы ИИ сначала понял идею, а уже потом подобрал для неё слова.

Результаты: эффективность как главный козырь

Такой подход даёт осязаемые преимущества в эффективности, что подтверждают тесты:

  • Компактность и сила: Модель с 1.6 млрд параметров конкурирует по качеству понимания с моделью Qwen2-VL на 72 млрд параметров.
  • Экономия ресурсов: Превосходит сопоставимые по размеру генеративные модели, используя на 50% меньше обучаемых параметров.
  • Скорость вывода: Selective decoding делает процесс декодирования в текст примерно в 3 раза эффективнее.
  • Универсальность: Одна архитектура решает три разные задачи (классификация, поиск, вопросы-ответы) без изменений.

Почему это важно? Дорожная карта к «здравомыслящему» ИИ

VL-JEPA — не просто очередная модель. Это очередной кирпич в архитектуре мира, которую ЛеКун описывает годами: путь к созданию ИИ, который понимает, как устроен мир, а не просто умело компилирует текст.

Практическое значение уже сейчас:

  • Real-time системы: Робототехника, дополненная реальность (AR-очки), анализ видеостримов — везде, где критична скорость и низкое энергопотребление. VL-JEPA может почти мгновенно анализировать сцену, не тратя циклы на «придумывание» красивого предложения.
  • Фундамент для новых задач: Этот подход идеально ложится в задачи, требующие здравого смысла и предсказания физических взаимодействий, — то, чего так не хватает сегодняшним LLM.

Но это не «убийца» ChatGPT

Авторы честно указывают границы. VL-JEPA не заменяет генеративные модели в задачах, требующих сложных рассуждений, использования инструментов (tool use) или агентного поведения. Там, где нужно «подумать вслух» и построить длинную цепочку аргументов, классические LLM пока вне конкуренции.

Что в итоге? Два параллельных пути

LeCun не пытается сделать «лучший ChatGPT». Он строит принципиально другую машину познания. Если генеративные модели — это блестящие имитаторы, изучающие мир через текст, то VL-JEPA и вся линейка JEPA — это попытка научить ИИ формировать внутренние, абстрактные представления об окружающей действительности. Первые лучше говорят, вторые, потенциально, могут лучше понимать. Битва архитектур только начинается, и её результат определит, как будет выглядеть следующий этап эволюции искусственного интеллекта.

*запрещенная организация в России.

Обменять криптовалюту на наличные прямо сейчас в Aifory Pro

Узнать о крипте еще больше