Почему «просто загрузил фото — получил видео» работает хуже, чем кажется — и как пройти три шага до анимации, чтобы получить управляемый результат. Все хотят «оживить фото». Загрузил картинку в Kling — получил видео. Да, так тоже работает. Но профессиональный результат начинается раньше — до того, как картинка попадает в нейросеть. Разбираю разницу на цифрах и промтах. Image-to-video принимает любую картинку. Но вот в чём проблема: если картинка взята из стока или сделана без техзадания — нейросеть для анимации сама решает, что и как двигать. Результат непредсказуем. Три кейса из практики (оценочно): Разница не в сложности. Разница в управляемости. Экономия времени: не делай два отдельных запроса. Один системный промт сразу даёт нужный формат. Пример для Claude 4.6 Sonnet или GPT-5.5:
«Ты — сценарист и раскадровщик. Создай 15-секундный рилс для [тема]. Формат ответа строго: Кадр 1: [описание сцены, 1-2 предложения] → [промт для генерации картинки на английском, 50+ слов, укажи: освеще