Найти в Дзене
В 2022 году аноним под псевдонимом Stelfie the Time Traveller натренировал лору в Stable Diffusion и начал постить селфи с собой древнем
Риме, убегающим от мамонтов, пиратящим корабли, итд. И тогда всё, что у тебя было на выходе это картинка. В 2026 народ уже пилит целые влоги с собой или AI-персонажами, путешествуя сквозь время и латентное пространство с высокой консистентностью и липсинком...
4 дня назад
А в опенсорсе не дремлет ACE-Step, который разрастается числом моделей, лор от сообщества, да и интерфейсы под генерацию треков и тренировку
лор прокачиваются всё сильнее. Конкретно интерфейс ACE-Step UI под копирку "вдохновлён" Suno с его выбором моделей, загрузкой референс трека, режимом кавера, настройкой голоса, bpm, и лирики (даже улучшайзер можно подрубить), но обладает всеми крутилками опенсорса, которые тут на удивление органично вписаны. И помимо ожидаемых рулек параметров вроде настройки длительности, количества треков, шагов, и прочего, тут есть и экзотичные: выбор метода инференса, llm для обработки лирики, режим Thinking, и даже аудио-инпейнт для замены части композиции генерацией. А что ещё круче, в опциях каждого трека...
4 дня назад
ElevenLabs: запустили платформу ElevenMusic
И у меня сразу дежавю, ибо они выпустили модель с таким же названием в прошлом году только без пробела в названии. Выяснилось, что ElevenMusic это одновременно и стриминг как Spotify для поиска новых артистов и прослушивания музыки, и генератор треков как Suno или Udio. Пока на платформе всего 4000 отобранных музыкантов и найти что-то по душе скорее всего будет проблематично. А вот с генерацией интереснее: платформа будет делиться доходом с авторами оригинальных генераций, а также ремиксов, сгенерированных на основе треков других авторов. Месяцем ранее они выкатили маркетплейс для треков. Стандартная...
4 дня назад
Sync: добавили режим дубляжа к своей недавно анонсированной липсинк модели Sync-3
Можно загрузить видео, вытащить звуковую дорожку через кнопку Detach, выбрать перевод на множество языков (включая русский), послушать превью, и, если всё ок, — получить это же видео с дубляжом на другом языке и липсинком. На аккаунт даётся 3 халявные попытки в месяц, пробуем. Меня удивило, что в тестовом видео с Анькой в начале произносится только половина имени — Кейдж вместо Николас Кейдж, — но нейронка сообразила и не перевела Кейдж как "клетка". С другой стороны она и Николас не должна была добавлять, ибо это не произносится, но мне здесь это показалось уместным для полноты контекста. Липсинк хорош, почти не косячит...
5 дней назад
Опубликовано фото
6 дней назад
Alibaba: выпустили видеогенератор Happy Horse 1, который метит в конкуренты Seedance 2
Выдаёт до 1080p со звуком в разных форматах кадра и с максимальной длительностью 15 сек. Промты поддерживают мультишот режим. На одно видео уходит 1-5 минут. Есть режимы: text-2-video, image-2-video, reference-2-video, и video editing. Причём похоже в отличие от Seedance 2 с лицами работать проще, см. пример с Мэтом Воркманом из Cinematography Database. Первые два режима уже можно пощупать на Fal. Они же уже наваяли гайд по промтингу. Качество видео на выходе годное, однако на примере с человеком, читающим книгу видно смазывание кадра в динамике, а текст книги нечитабелен. В Seedance 2 такое...
6 дней назад
Те, кто пробовал генерить видео в Seedance 2 знают, что из-за цензуры без ухищрений создать видео с целевым лицом проблематично
Теперь Comfy добавили два воркфлоу для генерации в Seedance 2 видео с лицами людей. Один ворк это reference-2-video, где в виде рефа подаётся изображение или видео, а второй ворк для генерации по двум ключевым кадрам. Закинутые в инпут картинки/видео с человеком сначала должны пройти верификацию: ты добавляешь в ворк изображение/видео с целевым лицом —> проходишь по сгенерированной ссылке на прохождение liveness верификации через облако ByteDance —> получаешь Group ID на персонажа и Asset ID на конкретную картинку/видео —> и дальше их используешь как рефы на основе которых можно генерить...
1 неделю назад
Лора на LTXV 2.3 для аутпейнта видео
Есть воркфлоу для локального запуска и апка на Comfy Cloud. С фильмом Хакеры я даже по бырику чекнул не выдают ли нам кроп за оригинал. И действительно аутпейнт работает. Хаггинг Воркфлоу
2 недели назад
Comfy: добавили поддержку Seedance 2 в обновлении v0
19. Есть три шаблона: * Text-2-video: для генерации только по тексту * Reference-2-video (r2v): в качестве рефов можно подавать пачку картинок (в ворке 4, но по идее можно до 12) * FLF: генерация по 2 кадрам r2v здесь похоже использует только картинки, в то время как оригинальный omnireference на сайте Dreamina даёт вкидывать до 12 рефов в виде картинок, видео, и аудио. Может с апдейтами расширят функционал. Для глобального релиза модель пошла по кругу со всех сторон прошла цензуру и по умолчанию с лицами людей будет противиться что-либо генерить. Однако голь на выдумки сильна и способы обойти ограничения есть...
2 недели назад
Nvidia показала DLSS 5
И выглядит это словно Хуанг познал дзен и прикрутил под капот лоры на реализм и апскейлеры. С резиком мало фрагментов с DLSS 5, чтобы оценить стабильность и качество фреймгена (хотя тут скорее нейрорендер). По остальным примерам ощущение, что всё какое-то пересвеченное, и в целом арт-дирекшн разработчиков теряется. Как буд-то DLSS 5 подталкивает игру перешагнуть зловещую долину, а она к этому не готова и ей лучше остаться такой с какими текстурами, освещением и прочим её задумывали...
1 месяц назад
Добрался посмотреть первый выпуск Wild TV от братана @pavelzhigar и это пушка! Столько деталей и отсылок! Очень качественная работа с четко
выдержанным стилем MTV той эпохи. Сразу перед глазами TOP-чарт, чудаки, бесконечный просмотр клипов, экстрим, музновости и интервью, лайвы с концертов, звёздные бои насмерть, рестлинг, итд. Приколол Дюк Нюкем наоборот и другая безумная реклама и шоу. Понравилась тема с заменой виджеев на животных. Снимает часть барьеров с восприятия и выглядит свежо в знакомом антураже. Плюс они все разные, каждый в одежде со своим стилем, яркие, и ты даже по нескольким секундам чувствуешь, что они настоящие и у них есть характер. Они живут даже, когда видео закончилось. Моя любимая часть экстрим спорт Wild Zone и следующий за этим скейтборд клип Primal Animal...
1 месяц назад
Black Forest Labs: выпустили Flux Klein 9B KV, обновлённую версию своего генератора картинок вышедшего в январе
Отличие от предшественника в наличии KV-кэша для ускорения мульти-референс редактирования. Он кэширует данные из рефов во время первого этапа денойза, и хранит их у себя вместо того, чтобы получать их каждый раз заново, тем самым устраняя избыточные вычисления в последующих шагах, что даёт ускорение в ~2,5 раза. При этом KV модель заточена генерить в 4 шага. На 4090 выдаёт картинку 832х1248 за 1 сек (3,28 ит/сек), хотя на первый запуск будет больше времени ибо идёт кэширование...
1 месяц назад