Найти тему
75 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.

CelebBasis: ещё один метод как с помощью одного фото за 3 минуты сгенерировать с собой изображение, используя диффузионную модель. Код будет позже.

Google: показали text-2-image модель StyleDrop, которая генерирует изображения с хорошим следованием целевому стилю, учитывая нюансы вроде теней, цвета, и т.д. Кода нет.

Self-guidance: zero-shot метод, с помощью которого можно заменять/перемещать объекты в кадре не трогая контекст сцены. Кода нет.

Conceptor: улучшаем SD на лету следовать семантике через Generative Semantic Nursing (GSN). Кода пока нет.

Cones 2: используем контекст нескольких изображений, чтобы генерить на их основе новые. Напоминает Break-a-scene... и кода тоже нет.

GenMM: генерация движения персонажа без необходимости в тренировке. Кода пока нет.

Würstchen: ускоряем тренировку text-2-image модели вроде SD 1.4 с 150 тыс. GPU часов до 9,2 тыс.

🎸 ЗВУК 🎸

MERT: модель для понимания музыки без человеческого контроля (self-supervised). Модели-учителя RVQ-VAE и CQT направляют модель-студента BERT-style в сторону лучшего понимания и моделирования музыки.

🤖 ЧАТЫ 🤖

Вышла неотцензуренная Wizard Vicuna 30B Uncensored

Обсуждение как цензура влияет на производительность языковых моделей.

LLaMa-Adapter Multimodal: к ламе прикрутили ImageBind и теперь она может чатиться с текстом, изображениями, видео, и аудио.

LLM As Chatbot: чат с разными моделями обновился. Добавилась тёмная тема, возможность задать глобальный контекст, и ещё по-мелочи.

LLaVA-Med: чат помощник по медицинским данным. Работает с изображениями и текстом.

SafeDiffusion: исследование как сделать процесс диффузии более точным. Бумага тут.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude.

Больше интересностей у меня в телеге Psy Eyes.
Дайджест:  📹 ВИДЕО + АРТ 🎨  Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.
1 минута