555 подписчиков

LTX-Video: новая модель для генерации видео. Установка и настройки.

29 ноября 202429 ноя 2024

2669

9 мин

Здравствуйте, уважаемые читатели! Недавно компания Light Tricks представила инновационную разработку — нейросеть LTX Video Studio. Разработчики утверждают, что она может использовать искусственный интеллект для полного цикла создания фильмов: от написания сценария до финальной озвучки. LTX Studio способна генерировать сценарий на основе любого текстового запроса, подбирать актёров для вашего фильма и предоставляет полный контроль над всеми аспектами съёмочного процесса, включая выбор ракурса и освещения. Более того, она может создавать реалистичную озвучку для персонажей. LTX Studio открывает новые горизонты для киноиндустрии. С помощью этой платформы любой человек, независимо от бюджета и опыта, может стать режиссёром. Однако, к сожалению, доступ к LTX Studio для нас закрыт, как и большинство продуктов в последние несколько лет. Для общего ознакомления с возможностями сервиса можно посетить сайт разработчиков по адресу https://ltx.studio/. Однако регистрация и работа с сервисом без и

Здравствуйте, уважаемые читатели!

Недавно компания Light Tricks представила инновационную разработку — нейросеть LTX Video Studio. Разработчики утверждают, что она может использовать искусственный интеллект для полного цикла создания фильмов: от написания сценария до финальной озвучки.

LTX Studio способна генерировать сценарий на основе любого текстового запроса, подбирать актёров для вашего фильма и предоставляет полный контроль над всеми аспектами съёмочного процесса, включая выбор ракурса и освещения. Более того, она может создавать реалистичную озвучку для персонажей.

LTX Studio открывает новые горизонты для киноиндустрии. С помощью этой платформы любой человек, независимо от бюджета и опыта, может стать режиссёром.

Однако, к сожалению, доступ к LTX Studio для нас закрыт, как и большинство продуктов в последние несколько лет.

Для общего ознакомления с возможностями сервиса можно посетить сайт разработчиков по адресу https://ltx.studio/. Однако регистрация и работа с сервисом без использования "специальных методов", таких как танцы с ~~vpn~~ бубном, не представляется возможной.

Но есть и хорошая новость! Благодаря ComfyUI вы сможете оценить часть функционала «инновационной» модели без необходимости регистрации и прочего. Если же вы хотите просто посмотреть, то вам сюда. Здесь вы можете онлайн создать видео на основе текстовой подсказки или использовать изображение в качестве объекта для генерации видео.

К сожалению, в демо-версии в режиме text2video то, что нам обещают и что получается на самом деле, не впечатляет.

Текст был создан в соответствии с советами разработчиков. Однако, сколько бы раз я ни запускал генерацию, результат оставался практически неизменным.

A woman in a long, shimmering fairy dress walks gracefully through an enchanted forest, her movements fluid and elegant. She gently touches the tree trunks as she passes, her long hair swaying in the breeze. Her dress sparkles in the light of the surrounding fireflies, creating a magical atmosphere. Fireflies flutter around her, their glow reflecting in her eyes. Luminous flowers sway gently in the wind, and the grass and leaves on the trees rustle softly, adding a sense of life and movement. The camera follows the woman, focusing on her face and movements as she gracefully walks through the forest. The lighting is soft and warm, enhancing the magical and mystical feel of the scene. Suddenly, one of the fireflies lands on her shoulder, and she smiles, looking at it with wonder and joy.

В режиме img2video ситуация, конечно, лучше. Вот что показала нейросеть, обработав загруженное изображение:

Но это онлайн сервис, а мы давайте перейдём к процессу локальной установки.

Не буду подробно описывать процесс установки ComfyUI, поскольку эта тема уже неоднократно рассматривалась в предыдущих моих статьях.

Дальнейшие шаги предполагают то, что у вас уже установлены ComfyUI и ComfyUI Manager.

Для начала необходимо скачать саму модель. Вы можете сделать это перейдя по ссылке.

После того как вы скачали модель, её необходимо поместить в папку «ComfyUI\models\checkpoints\».

Также убедитесь, что у вас установлен текстовый кодировщик T5. Если вы ранее использовали модели Flux, SD3 или SD 3.5, то вам не нужно ничего дополнительно скачивать — они подойдут для генерации видео в LTXV.

Если же у вас нет текстового кодировщика T5, то вы можете найти ссылки и инструкции по его установке в моих статьях о Stable Diffusion 3 и Stable Diffusion 3.5, а также о Flux.

Для работы с ComfyUI вам понадобится соответствующее рабочее пространство. Вы можете создать его самостоятельно или скачать по ссылке, чтобы не тратить время.

На странице представлены два варианта рабочего пространства: text2video и img2video. Выберите нужный вариант, затем нажмите на Workflow in Json format. Не пугайтесь открывшейся страницы с кодом, просто нажмите комбинацию клавиш Ctrl+S, и файл автоматически сохранится на вашем диске (если нет, то выберите save to json).

Далее, обновляете сам ComfyUI до последней версии, для этого необходимо зайти в папку Update и нажать update_comfyui.bat.

Запускаете ComfyUI и переходите в менеджер, потому что необходимо скачать дополнительные узлы (node) для работы с LTXV.

Жмёте Custom nodes manager и в строке поиска пишете LTX video:

Чтобы установить эти узлы, нажмите кнопку «Install». У меня они уже установлены, поэтому этой кнопки нет.

После установки обязательно нажмите кнопку «Restart», и интерфейс автоматически перезагрузится, загрузив все необходимые для работы файлы. Не забудьте обновить страницу с открытым ComfyUI после перезапуска сервера.

После этого можно загружать ранее скачанное рабочее пространство в интерфейс.

Если все необходимые компоненты для работы были установлены без ошибок, то вы увидите следующее окно (выше).

Если же вы видите в схеме красные узлы, то вернитесь в Manager и выберите опцию «Install missing custom node». Установите все предложенные компоненты, а затем полностью закройте интерфейс в браузере и перезапустите ComfyUI.

Само пространство достаточно простое и не перегружено лишними элементами. Вам нужно только ещё раз проверить окно выбора модели и окно выбора кодировщика и выбрать необходимые модели для работы LTXV.

Далее остается только загрузить изображение, прописать промпт к этому изображению и нажать Queue.

Сначала рассмотрим режим img2video:

Промпт: A mermaid with long, flowing white hair gracefully swims in the deep blue ocean, her movements fluid and elegant. She gently waves her hands and moves her tail, creating a sense of harmony with the underwater environment. Her shimmering blue tail and matching top sparkle in the filtered sunlight that penetrates the water, casting a soft glow on her. Colorful fish and sea creatures swim around her, adding vibrancy and life to the scene. The camera follows her from a side angle, capturing her full figure against the backdrop of the ocean depths. The lighting is soft and ethereal, with beams of sunlight illuminating the water and creating a magical atmosphere. The ocean floor is visible below, with corals and rocks adding texture and depth to the scene.

Результат:

Ну и режим text2video, промпт я использую тот, который был в режиме img2video, интересно посмотреть, как справится модель без подсказки в виде изображения:

A mermaid with long, flowing white hair gracefully swims in the deep blue ocean, her movements fluid and elegant. She gently waves her hands and moves her tail, creating a sense of harmony with the underwater environment. Her shimmering blue tail and matching top sparkle in the filtered sunlight that penetrates the water, casting a soft glow on her. Colorful fish and sea creatures swim around her, adding vibrancy and life to the scene. The camera follows her from a side angle, capturing her full figure against the backdrop of the ocean depths. The lighting is soft and ethereal, with beams of sunlight illuminating the water and creating a magical atmosphere. The ocean floor is visible below, with corals and rocks adding texture and depth to the scene.

Результат:

Промпт: A lone pedestrian walks down a rain-soaked city street, the reflections of storefront lights and streetlamps shimmering on the asphalt. He pulls up the collar of his coat, shielding himself from the cold wind. The camera slowly follows, capturing the details of the architecture and the nightlife of the city. The lighting is soft and subdued, creating an atmosphere of mystery and calm.

Результат:

Промпт: The sun slowly sets on the horizon, painting the sky in shades of orange and pink. The wind gently rustles the treetops, and the grass on the meadow softly waves. The camera smoothly moves, capturing a panorama of the forest where birds return to their nests. The light is soft and warm, creating a serene atmosphere. In the distance, a calm lake reflects the last rays of the sun.

Результат:

Промпт: An elderly fisherman sits on the bank of a tranquil river, his fishing rod swaying over the water. He leisurely packs his pipe with tobacco, enjoying the silence and peace. Around him, leaves rustle on the trees, and the water flows gently. The camera focuses on his face, then slowly pulls back, showcasing the beauty of nature around him. The light is soft and natural, emphasizing the tranquility of the moment.

Результат:

При составлении подсказок важно уделить внимание нескольким ключевым аспектам:

1. Подробное и хронологическое описание: Необходимо предоставить детальное описание действий и сцен в их хронологической последовательности, включая конкретные движения, внешний вид, ракурсы камеры и детали окружающей среды. Все это должно быть объединено в один связный абзац.

2. Начало с действия: Важно сразу же обозначить основное действие и описать его в точности. При этом необходимо учитывать ограничение в 200 слов.

По рекомендациям разработчиков, для достижения наилучшего результата, рекомендуется следовать следующей структуре при составлении подсказки:

1. Начните с основного действия, сформулировав его в одном предложении.

2. Добавьте конкретные сведения о движениях и жестах.

3. Точное описание внешнего вида персонажа или объекта.

4. Включите информацию о предыстории и окружении.

5. Укажите ракурсы и движения камеры.

6. Опишите освещение и цветовую гамму.

7. Обратите внимание на любые изменения или внезапные события.

Настройки разрешения:

для детализированных сцен выбирайте более высокое разрешение, а для простых сцен и быстрой генерации — более низкое.

Модель поддерживает разрешения, кратные 32, и количество кадров, кратное 8 + 1 (например, 257). Если разрешение или количество кадров не соответствуют этим требованиям, входные данные дополняются до ближайшего меньшего значения, а затем обрезаются до нужного размера.

Оптимальная работа модели достигается при разрешении до 720 x 1280 и количестве кадров до 257.

Рекомендованный CFG Scale составляет от 3 до 3,5.

Количество шагов: для высокого качества используйте больше шагов (40+), а для ускорения процесса — меньше шагов (20-30).

Разработчики неоднократно подчёркивали ключевые преимущества своей модели.

"Это первая модель, которая позволяет создавать пятисекундные видео с частотой 24 кадра в секунду и разрешением 768 на 512 пикселей в реальном времени. Она обладает двумя миллиардами параметров и даёт возможность создавать видео высокого качества в режиме реального времени."

Я не стремлюсь ни критиковать, ни хвалить эту модель. Это лишь моё личное мнение.

Видео, которое генерируется, длится не 5 секунд, а 4,5 секунды. И ни о какой генерации в реальном времени речи не идёт. Процесс создания видео на 3080 при 10 гигабайтах памяти занимает примерно 30-35 секунд. Также не совсем понятно, о каком высоком или выдающемся качестве генерируемого видео говорят разработчики.

В настоящее время существует множество нейросетей, которые способны генерировать видео в аналогичном разрешении, но с более точным соответствием запросу и даже в лучшем качестве. Например, CogVideo демонстрирует более высокие показатели в этом аспекте, хотя и требует больше времени на обработку, чем LTX. На мой взгляд, самым большим преимуществом LTX является скорость генерации. Однако я считаю, что лучше потратить больше времени на обработку, но с уверенностью в конечном результате, чем тратить время на составление подробного сценария для LTX и затем многократно генерировать видео без гарантии успеха.

На этом всё. Благодарю вас за уделенное время и лайк!

Ну и конечно же, если вам понравилась эта статья, буду рад вашим подпискам, комментариям и лайкам. Недавно я запустил Discord-канал и постараюсь поддерживать его насколько возможно, там вы сможете не только следить за новостями, но и общаться, делиться опытом и приобретать новые знания о нейросетях. Чтобы всегда быть в курсе моих новых материалов, подписывайтесь на мой Boosty, Telegram-канал и страницу "ВКонтакте". Пока что нас немного, но я надеюсь, что с течением времени сообщество станет больше. Это станет отличной мотивацией для меня активно работать и над другими социальными сетями.