Видео длиной в 5 минут — это вообще возможно?
Представьте: стартап вылезает из тени с технологией, которая генерирует видео длиной до пяти минут. Пять минут! А конкуренты вроде Sora от OpenAI и Google Veo едва-едва тянут на 25 секунд. Звучит как фантастика, но вот это произошло.
CraftStory — компания, основанная создателями OpenCV (да-да, той самой библиотеки компьютерного зрения, которую знает каждый, кто хоть что-то понимает в обработке изображений) — только что анонсировала Model 2.0 и собрала 2 миллиона долларов инвестиций. И вот тут начинается самое интересное.
Почему это важно прямо сейчас
Представьте себе ситуацию: вам нужно создать видео для обучения сотрудников или демонстрации продукта. 10 секунд? Это просто издевательство. Вы же понимаете, что нормальный туториал — это минимум пара минут, если не больше.
Вот здесь и зарывается клад. Компании вроде Google, Meta и даже самого OpenAI зациклены на создании супермощных универсальных моделей (типа, генерируй всё подряд). А CraftStory смотрит в другую сторону — берёт одно направление и копает туда очень глубоко: видео про людей, длинные, качественные, как живые.
Как они это вообще сделали?
Виктор Эрухимов (CEO компании) объясняет всё просто: вместо того, чтобы генерировать видео последовательно (сначала первые 8 секунд, потом прилепить ещё 8 секунд), они запускают множество алгоритмов диффузии одновременно по всему видео. И вот что в этом крутого — последняя часть видео может влиять на первую! Это исключает артефакты, которые накапливаются, когда работаешь по кусочкам.
Но подождите, есть ещё. Они не просто скачали какой-то интернет-видео и обучили модель. Ребята наняли студии, профессиональных актёров и снимали на высокоскоростных камерах. Вот тебе и качество — даже быстрые движения пальцев снимаются без размытия.
«Не нужно много данных и не нужен большой бюджет на обучение,» — говорит Эрухимов. «Нужны просто качественные данные.» Согласитесь, звучит разумно.
А как это работает на практике?
Система работает как видео-видео трансформер: загружаешь неподвижное изображение, загружаешь видео с человеком (чей движения нужно повторить), и вуаля — система оживляет картинку. Синхронизация губ? Есть. Согласование жестов с речью? И это работает.
Правда, сейчас это всё ещё довольно медленно — 30 секунд в низком разрешении генерируется минут 15. Но это же начало, в конце концов.
Про деньги, или David vs Goliath в AI
Вот где начинается история, которая бросает вызов всему, что мы думаем об AI-стартапах. Два миллиона долларов. Два. А konkurenty? OpenAI в последнем раунде собрал 6 миллиардов. Это, знаете ли, небольшая разница.
Инвестор Эндрю Филев (парень, который продал свой Wrike за 2.25 миллиарда Citrix’у) не согласен, что деньги — это всё. Он говорит, что большие лаборатории ввязались в гонку вооружений, пытаясь построить универсальные модели. А CraftStory, мол, берёт волну и идёт очень глубоко в конкретную нишу.
«Когда инвестируешь в стартапы, ты ставишь на людей,» — говорит Филев. И он прав. Маргарет Мид когда-то сказала (или может и не сказала, но это звучит правдиво): «Никогда не недооценивайте, что может построить небольшая группа преданных инженеров и учёных.»
Зачем компьютерное зрение в генеративном AI?
Эрухимов — это не просто парень с GPT-4 и хорошим промптом. Он был одним из ранних участников OpenCV. Когда Intel в конце 2000-х урезал поддержку библиотеки, он со-основал Itseez, чтобы развивать эту штуку дальше. Потом Intel купил всю компанию в 2016 году.
Вот видите, что упускают многие: генеративное видео — это не просто про генерацию. Это про понимание движения, мимики лица, о том, как люди действительно двигаются. А Эрухимов в этом вообще мастер класса.
Кому это вообще нужно?
CraftStory смотрит чётко в сторону B2B. Не тиктокеры, не инфлюэнсеры — компании. Особенно софтверные компании, которые хотят снять классные видео для обучения, демонстрации продукта, лаунчей.
Логика простая, как два пальца: корпоративные видео просто не могут быть 10-секундными. Нужно показать фичу, объяснить, почему она полезна. Минуты две минимум.
Филев даже предположил, что маленький владелец бизнеса может создать контент за минуты, который раньше стоил бы 20 тысяч долларов и занял бы два месяца. Не плохо, а?
Ещё интересный момент — агентства, которые снимают видео для корпоративов. Они могут просто записать актёра на камеру и превратить это в готовое видео через систему CraftStory. Никаких дорогих многодневных съёмок.
Что дальше в планах?
Команда работает над text-to-video моделью, чтобы генерировать длинные видео прямо из скриптов. Ещё хотят научить систему работать с движущейся камерой — популярный формат «walk-and-talk», который часто видишь в крутых рекламах.
А что с конкуренцией?
Рынок, конечно, забит. Sora 2, Veo, Runway, Pika, Stability AI — все хотят кусок пирога. Но Эрухимов уверен, что CraftStory занимает свою нишу. Быстрая инновация и захват рынка — вот его стратегия, а не какие-то супер-технические препятствия для конкурентов.
Филев видит, как рынок расслаивается: большие компании делают API мощных генеративных моделей (вроде двигателей), а специализированные игроки вроде CraftStory строят поверх студии и конвейеры.
Model 2.0 уже доступна на app.craftstory.com/model-2.0. Получится ли небольшому стартапу действительно отхватить кусок у мегакорпораций — большой вопрос. Но Эрухимов ставит на победу.
«AI-видео скоро станет основным способом, как компании рассказывают свои истории,» — говорит он.
Если вас интересует, как небольшие стартапы меняют AI-индустрию и какие технологии будут определять будущее видео-контента, подписывайтесь и не пропускайте крутые истории.🔔 Чтобы узнать больше о генеративном AI, видео-технологиях и других прорывах в AI-мире, подпишитесь на мой канал «ProAI» в Telegram!