За последние месяцы мы увидели впечатляющие демонстрации визуальной силы больших видео‑моделей — яркий пример — Seedance 2.0. При этом одно на вид примитивное задание — попросить человека в видео вслух сосчитать от 1 до 10 и показывать числа пальцами — стало универсальным крахом для всех современных генераторов. Почему?
Этот простой кейс наглядно показывает, что модели «научились выглядеть правдоподобно», но ещё не «поняли» мир.
В чём проявляется провал
Эксперимент, организованный пользователем с ником fofr (на X, он указан как разработчик DeepMind), показал системную ошибку: сгенерированные люди, фон и свет очень реалистичны, но при счёте модели:
- начинают заикаться, повторяя бессмысленные звуки вместо слов «one… two…»;
- показывают неверное количество пальцев (например, уверенно произносят «ten», показывая при этом максимум три пальца);
- пальцы выглядят «резиновыми» или «слипшимися», создавая сильное ощущение «подделки» несмотря на фотореализм фона.
Это не единичный баг Seedance 2.0 — тот же тест провалили Sora, Veo, Kling и прочие ведущие модели.
Почему так происходит: статистика вместо понимания
Современные видео‑модели по сути решают задачу «предсказания следующего кадра» — аналогично языковым моделям, которые предсказывают следующий токен. Они учатся на огромных массивах кадров и схватывают статистические закономерности визуального мира: текстуры кожи, падающий свет, складки одежды. Но когда требуется чёткое знание физики или семантической логики (например: «показал 3 — нужно показать 4»), статистики оказывается недостаточно.
Проблемы сводятся к трем крупным категориям.
- Тонкие моторные действия руки
- Рука — чрезвычайно сложный объект: множество костей, суставов, мышц и связок, высокая степень свободы. В реальной съёмке руки часто частично закрыты, смазаны движением или находятся по краю кадра — качественных примеров для обучения мало. Поэтому модели плохо воспроизводят последовательные жестикуляции и легко «сшибают» пальцы (аналог «шестипалых» людей в ранних генеративных изображениях).
- Моделирование физических закономерностей
- Потоки жидкости, столкновения, поведение ткани, динамика пальцев — это вещи, которые человеческий взгляд понимает интуитивно, а модели генерируют лишь наиболее вероятное визуальное продолжение. Без знания механики и физики результат часто нарушает законы реального мира.
- Временная логическая согласованность
- Видео — это причинно‑следственная цепочка: то, что показано в кадре N, должно плавно перейти в кадр N+1. Текущие архитектуры рассматривают время как ещё одно абстрактное измерение и не хранят «память» о предыдущих точных состояниях (сколько пальцев было поднято), поэтому последовательность «прибавления» пальца легко теряется.
Другими словами: модели научились «визуальной грамматике» кино, но не «физической грамматике» мира.
Альтернативный путь: world models (модели мира)
Решение многих исследователей — перейти от чисто статистической генерации к построению структурированных «моделей мира», где ИИ не просто рисует то, что чаще встречалось в данных, а моделирует трёхмерную геометрию, физику и динамику объектов.
Крупные инициативы в этой области:
- World Labs (Ли Фейфэй) — цель: дать моделям «пространственный интеллект»; продукт Marble генерирует устойчивые 3D‑окружения.
- AMI Labs (Ян Лекун и соратники) / бывшие команды Google DeepMind — исследования генерирования и симуляции 3D‑сцен.
- Nvidia Cosmos — попытка объединить видеогенерацию, физическое моделирование и робособирание в единой инфраструктуре.
- И другие команды в индустрии и академии, которые инвестируют в 3D‑прайоры и симуляционные среды.
Идея в том, чтобы дать модели индуктивные «законы» — геометрию, динамику, консервацию — а не только статистику глазомира.
Что это значит для индустрии и творцов
- В краткой перспективе: современные видео‑модели продолжают совершенствоваться и будут всё лучше «обманывать» зрение — но пока остаются уязвимы в задачах, требующих глубокой физической или логической когнитивности.
- В среднесрочной перспективе: прорыв дастся тому подходу, который объединит 2D‑генерацию с устойчивыми 3D‑представлениями и физическими симуляторами — тогда машина сможет не только «нарисовать» руку, но и «понять», как она двигается.
- Для креаторов: сейчас AI — мощный инструмент визуализации и ускорения производства, но ключевые решения по сцеплению драматургии, логики действий и тонкой актёрской игры по‑прежнему требуют человеческой интуиции.
Заключение
Тест «посчитать от 1 до 10, показывая пальцами» прост, но показатель: он чётко разделяет две вещи — видимую реалистичность и истинное понимание мира. Пока модели опираются главным образом на статистику пикселей, им далеко до систем, которые обладают «моделями мира» — пониманием геометрии, физики и причинно‑следственных связей.
Пока AI учится этим «физическим правилам», людям можно немного расслабиться: полная замена творца, который владеет мировыми закономерностями и драматургией, всё ещё далека.
Хотите создать уникальный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.
ИИ сегодня — ваше конкурентное преимущество завтра!
Тел. +7 (985) 982-70-55
E-mail sms_systems@inbox.ru
Сайт https://www.smssystems.ru/razrabotka-ai/