Фреймворк сочетает в себе 10+ режимов для создания лор по видео и аудио: t2v, i2v, расширение длительности видео и аудио, инпейтинг и аутпейнтинг, audio-to-video, video-to-audio (Foley), text-to-audio, и IC-лоры. Базовые лоры выложены на хаггинге. Есть документация с инструкциями по созданию датасетов, оптимизиции пайплана для эффективного использования памяти, и примеры конфигов. Также в наличии скилл для агентов вроде Hermes или Claude Code, которым можно описать задачу, а дальше они сами. Единственно, в рекомендациях по трене пишется, что лучше бы иметь 80+ ГБ VRAM (привет RTX 6000 PRO). Хотя INT8 кванты могут запуститься и на 4090/5090. Также есть возможность распределённого файнтюна на кластере из GPU. Твит Документация Гитхаб Хаггинг
LTX: обновили LTX Trainer для тренировки лор/файнтюна на основе видеогенератора LTXV
2 дня назад2 дня назад
1
~1 мин