75 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
Make-Your-Video: новая video-2-video модель, можно добиться нормальной консистентности. Напоминает GEN-1 от Runway. Код будет позже.
CelebBasis: ещё один метод как с помощью одного фото за 3 минуты сгенерировать с собой изображение, используя диффузионную модель. Код будет позже.
Google: показали text-2-image модель StyleDrop, которая генерирует изображения с хорошим следованием целевому стилю, учитывая нюансы вроде теней, цвета, и т.д. Кода нет.
Self-guidance: zero-shot метод, с помощью которого можно заменять/перемещать объекты в кадре не трогая контекст сцены. Кода нет.
Conceptor: улучшаем SD на лету следовать семантике через Generative Semantic Nursing (GSN). Кода пока нет.
Cones 2: используем контекст нескольких изображений, чтобы генерить на их основе новые. Напоминает Break-a-scene... и кода тоже нет.
🎸 ЗВУК 🎸
MERT: модель для понимания музыки без человеческого контроля (self-supervised). Модели-учителя RVQ-VAE и CQT направляют модель-студента BERT-style в сторону лучшего понимания и моделирования музыки.
🤖 ЧАТЫ 🤖
Вышла неотцензуренная Wizard Vicuna 30B Uncensored
LLaMa-Adapter Multimodal: к ламе прикрутили ImageBind и теперь она может чатиться с текстом, изображениями, видео, и аудио.
LLM As Chatbot: чат с разными моделями обновился. Добавилась тёмная тема, возможность задать глобальный контекст, и ещё по-мелочи.
1 минута
2 июня 2023