Найти тему
75 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

Hotshot-XL: генератор гифок по тексту на основе SDXL.

FreeU добавлен в библиотеку Diffusers

🎸 ЗВУК 🎸

MusicGen: недавно Gradio добавили в интерфейс стриминг аудио, так что можно генерить музыку и слушать её намного быстрее.

UniAudio: фреймворк для гененрирования музыки, клонирования голоса, улучшения качества записи, и не только.

Инструкция как с нуля натренировать GPT-2 для генерации музыки.

Исследование на тему декодирования речи из мозга.

🤖 ЧАТЫ 🤖

MistralAI, 7B модель превосходящая на бенчах ламу-2 13B, теперь доступна в hugging.chat. Народ уже пилит возможность общаться с ней голосом.

LLAVA: визуальная языковая модель (VLM) для чата по картинкам обновилась до v 1.5. Это опенсорсный соперник GPT-4 Vision, который на 11 бенчах лучше Qwen-VL (Alibaba) и IDEFICS (HuggingFace). При этом натренирована на разительно меньшем количестве данных.

YandexGPT теперь может делать пересказ видеороликов.

SEED-LlaMA: этот VLM на основе ламы тоже обновился.

Gradio: добавили FileExplorer, для удобной навигации по файлам моделей.

InstructCV: инструмент для анализа изображения, чата по нему и сегментации.

LAION: собирают датасет из пар текст-картинка из DALLE-3

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Дайджест:  📹 ВИДЕО + АРТ 🎨  Hotshot-XL: генератор гифок по тексту на основе SDXL.
1 минута