31 подписчик

Почему ни одна видео модель не умеет просто «посчитать от 1 до 10»

10 марта10 мар

4 мин

За последние месяцы мы увидели впечатляющие демонстрации визуальной силы больших видео‑моделей — яркий пример — Seedance 2.0. При этом одно на вид примитивное задание — попросить человека в видео вслух сосчитать от 1 до 10 и показывать числа пальцами — стало универсальным крахом для всех современных генераторов. Почему? Этот простой кейс наглядно показывает, что модели «научились выглядеть правдоподобно», но ещё не «поняли» мир. В чём проявляется провал Эксперимент, организованный пользователем с ником fofr (на X, он указан как разработчик DeepMind), показал системную ошибку: сгенерированные люди, фон и свет очень реалистичны, но при счёте модели: Это не единичный баг Seedance 2.0 — тот же тест провалили Sora, Veo, Kling и прочие ведущие модели. Почему так происходит: статистика вместо понимания Современные видео‑модели по сути решают задачу «предсказания следующего кадра» — аналогично языковым моделям, которые предсказывают следующий токен. Они учатся на огромных массивах кадров и схв

Этот простой кейс наглядно показывает, что модели «научились выглядеть правдоподобно», но ещё не «поняли» мир.

В чём проявляется провал

Эксперимент, организованный пользователем с ником fofr (на X, он указан как разработчик DeepMind), показал системную ошибку: сгенерированные люди, фон и свет очень реалистичны, но при счёте модели:

начинают заикаться, повторяя бессмысленные звуки вместо слов «one… two…»;
показывают неверное количество пальцев (например, уверенно произносят «ten», показывая при этом максимум три пальца);
пальцы выглядят «резиновыми» или «слипшимися», создавая сильное ощущение «подделки» несмотря на фотореализм фона.

Это не единичный баг Seedance 2.0 — тот же тест провалили Sora, Veo, Kling и прочие ведущие модели.

Почему так происходит: статистика вместо понимания

Современные видео‑модели по сути решают задачу «предсказания следующего кадра» — аналогично языковым моделям, которые предсказывают следующий токен. Они учатся на огромных массивах кадров и схватывают статистические закономерности визуального мира: текстуры кожи, падающий свет, складки одежды. Но когда требуется чёткое знание физики или семантической логики (например: «показал 3 — нужно показать 4»), статистики оказывается недостаточно.

Проблемы сводятся к трем крупным категориям.

Тонкие моторные действия руки

Рука — чрезвычайно сложный объект: множество костей, суставов, мышц и связок, высокая степень свободы. В реальной съёмке руки часто частично закрыты, смазаны движением или находятся по краю кадра — качественных примеров для обучения мало. Поэтому модели плохо воспроизводят последовательные жестикуляции и легко «сшибают» пальцы (аналог «шестипалых» людей в ранних генеративных изображениях).

Моделирование физических закономерностей

Потоки жидкости, столкновения, поведение ткани, динамика пальцев — это вещи, которые человеческий взгляд понимает интуитивно, а модели генерируют лишь наиболее вероятное визуальное продолжение. Без знания механики и физики результат часто нарушает законы реального мира.

Временная логическая согласованность

Видео — это причинно‑следственная цепочка: то, что показано в кадре N, должно плавно перейти в кадр N+1. Текущие архитектуры рассматривают время как ещё одно абстрактное измерение и не хранят «память» о предыдущих точных состояниях (сколько пальцев было поднято), поэтому последовательность «прибавления» пальца легко теряется.

Другими словами: модели научились «визуальной грамматике» кино, но не «физической грамматике» мира.

Альтернативный путь: world models (модели мира)

Решение многих исследователей — перейти от чисто статистической генерации к построению структурированных «моделей мира», где ИИ не просто рисует то, что чаще встречалось в данных, а моделирует трёхмерную геометрию, физику и динамику объектов.

Крупные инициативы в этой области:

World Labs (Ли Фейфэй) — цель: дать моделям «пространственный интеллект»; продукт Marble генерирует устойчивые 3D‑окружения.
AMI Labs (Ян Лекун и соратники) / бывшие команды Google DeepMind — исследования генерирования и симуляции 3D‑сцен.
Nvidia Cosmos — попытка объединить видеогенерацию, физическое моделирование и робособирание в единой инфраструктуре.
И другие команды в индустрии и академии, которые инвестируют в 3D‑прайоры и симуляционные среды.

Идея в том, чтобы дать модели индуктивные «законы» — геометрию, динамику, консервацию — а не только статистику глазомира.

Что это значит для индустрии и творцов

В краткой перспективе: современные видео‑модели продолжают совершенствоваться и будут всё лучше «обманывать» зрение — но пока остаются уязвимы в задачах, требующих глубокой физической или логической когнитивности.
В среднесрочной перспективе: прорыв дастся тому подходу, который объединит 2D‑генерацию с устойчивыми 3D‑представлениями и физическими симуляторами — тогда машина сможет не только «нарисовать» руку, но и «понять», как она двигается.
Для креаторов: сейчас AI — мощный инструмент визуализации и ускорения производства, но ключевые решения по сцеплению драматургии, логики действий и тонкой актёрской игры по‑прежнему требуют человеческой интуиции.

Заключение

Тест «посчитать от 1 до 10, показывая пальцами» прост, но показатель: он чётко разделяет две вещи — видимую реалистичность и истинное понимание мира. Пока модели опираются главным образом на статистику пикселей, им далеко до систем, которые обладают «моделями мира» — пониманием геометрии, физики и причинно‑следственных связей.

Пока AI учится этим «физическим правилам», людям можно немного расслабиться: полная замена творца, который владеет мировыми закономерностями и драматургией, всё ещё далека.

Хотите создать уникальный продукт? СМС – ваш надежный партнер в мире инноваций! Закажи разработки ИИ-решений, LLM-чат-ботов, моделей генерации изображений и автоматизации бизнес-процессов у профессионалов.

ИИ сегодня — ваше конкурентное преимущество завтра!

Тел. +7 (985) 982-70-55

E-mail sms_systems@inbox.ru

Сайт https://www.smssystems.ru/razrabotka-ai/