Пара наблюдений из твиттера от человека, тренирующего IC (In-Context) лоры на LTXV: - Качество обучающих данных важнее их количества. Даже с относительно небольшими наборами данных (10–15 пар) можно добиться отличных результатов, если данные качественные, а желаемый эффект четко сформулирован. - first_frame_conditioning — ключевой параметр. Более высокие значения способствуют замене каждого пикселя, а более низкие — игнорированию референсных изображений. Однако использование вместе с лорами на стиль может улучшить результат. Очень важно найти правильный баланс. - При обучении универсальных IC-лор может быть полезно использовать низкую скорость обучения (5e-5 или меньше) и большее количество шагов, особенно если цель состоит в том, чтобы изменить только часть входного видео. Твит
Чтоб Алеф не расслаблялся, опенсорс в лице лор на LTXV 2.3 держит его на контроле
22 мая22 мая
2
~1 мин