Взяли один портретный снимок, написали один промпт и прогнали всё через пять разных моделей. Цель была простая: выяснить, какой инструмент даёт результат, который не стыдно показать клиенту или опубликовать. Дополнительное условие — только то, что реально работает в России без VPN и зарубежных карт.
Оценивали три вещи: насколько естественно выглядит движение, сохраняет ли модель детали лица при анимации и сколько времени уходит на генерацию одного ролика.
Прежде чем запускать модель: что важно в исходнике
Подготовка фотографии — не формальность. Для теста использовали портрет с разрешением 1200×1600 пикселей, ровным освещением и человеком, который полностью помещается в кадр: руки, плечи, голова — всё видно целиком.
Причина простая: если какая-то часть тела уходит за границу кадра, модель начинает достраивать недостающее самостоятельно. Алгоритм угадывает, что там могло бы быть, исходя из общей логики изображения — и почти всегда это выглядит неестественно. Рука, которая появляется из ниоткуда, плечо, которое деформируется при движении, — типичные артефакты небрежно обрезанного исходника. Лучше потратить минуту на кадрирование заранее, чем переделывать генерацию несколько раз.
Kling 3.0 — лучший выбор для работы с лицом
Если задача — оживить портрет так, чтобы лицо выглядело убедительно, Kling сейчас опережает остальных. В тесте модель точно воспроизводила текстуру кожи и не ломала анатомию даже при повороте головы. Тени под скулами и вокруг глаз при движении перестраивались корректно, без характерного смазывания, которое выдаёт слабые модели.
Промпт, который дал чистый результат:
Крупный план. Человек медленно моргает и спокойно дышит. Голова и плечи неподвижны. Мягкий естественный свет. Фон полностью статичный.
Два наблюдения, которые влияют на результат.
Первое: фраза «фон статичный» работает буквально. Kling её слышит и действительно не трогает фон. Без этого уточнения фон начинает слегка плыть даже на полностью статичном портрете — не катастрофически, но заметно.
Второе: наречия в промпте работают как регулятор интенсивности движения. «Медленно моргает» — это едва заметное, почти физиологическое действие. «Резко поворачивает голову» — активная динамика. Kling чувствителен к этому различию, и разница в итоговом видео ощутима. Это удобно: можно точно настраивать характер движения, не меняя всю структуру промпта.
Kling хорошо подходит для портретов, крупных планов лица и любых кадров, где важна детализация кожи и анатомическая точность.
Seedance — органика движения там, где важны детали
На портрете с длинными волосами Seedance показал более живой результат в области причёски, чем Kling. Пряди двигались по отдельности и реагировали на воображаемый ветер с разной скоростью — именно так выглядит настоящее движение волос, в отличие от «желейного» эффекта, который встречается у других моделей. Там, где конкуренты дают однородную пластичную массу, Seedance воспроизводит отдельные пряди с индивидуальной инерцией.
Промпт, который использовали:
Средний план. Лёгкий ветер двигает волосы и одежду. Пряди движутся по отдельности. Листья на фоне слегка колышутся. Камера статичная.
На чистом портрете без текстурной одежды и волос Seedance немного уступает Kling по детализации лица. Разница не критическая, но при прямом сравнении заметна: кожа чуть менее детализирована, микромимика менее выражена. Это честный компромисс, который стоит учитывать при выборе инструмента.
Seedance работает лучше всего на кадрах с фактурной одеждой, длинными волосами и природой на заднем плане — везде, где органика движения важнее детализации лица.
Grok — сохраняет стиль там, где другие его стирают
Большинство моделей при генерации тянут исходное изображение к фотореализму: выравнивают свет, сглаживают текстуры, убирают авторскую эстетику. Происходит это не намеренно — просто модель обучена на огромном количестве «нормальных» фотографий и при любом отклонении стремится к усреднённому результату.
Grok этого не делает. Он работает с тем, что есть в исходнике, а не с тем, каким, по мнению алгоритма, должен быть правильный портрет. На обычных снимках это различие почти незаметно. Но если исходник — арт-портрет, рисованный персонаж, стилизованная фотосессия с нестандартным освещением или кадр с выраженной цветовой обработкой — Grok даёт результат там, где Kling или Seedance его усредняют.
Промпт, который использовали:
Крупный план. Человек смотрит в камеру и чуть улыбается. Глаза живые, мимика едва заметная. Фон размытый и неподвижный. Сохранить визуальный стиль исходного изображения.
Последняя фраза важна. Без неё Grok тоже работает хорошо, но явное указание на сохранение стиля делает результат стабильнее на нестандартных исходниках. Особенно это ощущается, когда в кадре есть графические элементы, нарисованные текстуры или нетипичная цветовая схема.
Grok — выбор для стилизованных кадров, иллюстраций и арт-портретов, где визуальный характер исходника важен не меньше, чем качество движения.
Qwen — быстро и без капризов к исходнику
Qwen генерирует заметно быстрее остальных моделей и значительно мягче относится к исходнику. Он принимает кадры с неидеальным освещением, прощает небольшие ошибки кадрирования и работает с фотографиями среднего качества без явных артефактов на выходе.
По детализации лица Qwen уступает Kling, по органике движения — Seedance. Но как инструмент для быстрого теста промпта или черновой генерации он работает без нареканий. Движение выглядит естественно, лицо держится без деформаций, время ожидания минимальное.
Использовали тот же промпт, что и для Kling. Результат рабочий. Если задача — быстро показать заказчику «примерно вот так будет выглядеть» или проверить, как поведёт себя конкретный исходник, Qwen справляется. Если нужен финальный результат — лучше перейти на Kling или Seedance.
Kling, Seedance, Grok и Qwen доступны в SpeShu.AI без VPN, с оплатой в рублях по СБП — и без отдельных подписок на каждый сервис. Модель оплаты там токенная: платите за фактические генерации, а не за месяц вперёд. При пополнении работает промокод DZEN15 — даёт 15% к сумме.
WAN — мощная модель, но не для этой задачи
WAN включили в тест ради честности, а не потому что он вписывается в тему. Архитектура этой модели заточена под генерацию видео из текста: на вход ей нужен текстовый промпт, а не фотография. Для Image-to-Video она не предназначена.
На задаче «оживить портрет» WAN даёт посредственный результат — и это не недостаток модели, а следствие того, для чего она создавалась. Для генерации видео с нуля по текстовому описанию WAN — один из сильных вариантов. Для анимации существующей фотографии — не тот инструмент. Это важно понимать до того, как тратить время и токены.
Как выбирать модель под задачу
Разница между моделями — не маркетинговая история. Это следствие того, на каких данных делался акцент при обучении. Kling обучали на большом количестве крупных планов с детализацией кожи — это прямо отражается в результате. Seedance — на сценах с движением ткани и природы. Grok демонстрирует устойчивость к стилистическим отклонениям от фотореализма. Qwen оптимизирован под скорость и терпимость к несовершенным исходникам.
Простая схема:
- Портрет, крупный план лица — Kling
- Волосы, фактурная одежда, природа на фоне — Seedance
- Стилизованный кадр, иллюстрация, арт-портрет — Grok
- Быстрый черновик, тест промпта — Qwen
- Видео из текстового описания — WAN
Понять, какая модель лучше работает именно с вашим материалом, можно только на практике. Прогнать один и тот же исходник через несколько моделей и сравнить — это занимает меньше времени, чем кажется, и даёт куда более точный ответ, чем любой рейтинг.
Сделать это в одном месте, без переключения между сервисами, можно в SpeShu.AI — там собраны все пять моделей из теста, оплата в рублях, интерфейс на русском, без VPN. Скоро на платформе появятся чаты сообщества: отдельно для разработчиков, для бизнеса и для креаторов. В чате для креаторов можно будет смотреть чужие работы, разбирать промпты и участвовать в конкурсах — это быстрее, чем учиться на собственных артефактах. Промокод DZEN15 даёт 15% к сумме пополнения.