76 подписчиков

Дайджест:

📹 ВИДЕО + АРТ 🎨

Gaussian Head Avatar: появился код генератора реалистичных говорящих голов на основе гауссиан.

Marigold-LCM: ускоренная версия модели для получения детальной карты глубины картинки, видео, и 3D. В разделе видео работает не с любым разрешением.

GeoWizard: тоже проект для получения карты глубины, но только из картинки. В пайплайне есть генератор 3D, но он работает в бета-режиме.

RRNet: новый метод, помогающий моделям лучше следовать промту в контексте, не встречающемся в реальности.

T-Rex2: модель для детектирования объектов на картинках.

EMAGE: генерация мимики и жестикуляций на основе аудио.

AniPortarait: получение анимации персонажа на основе запись речи, фото и видео целевой позы (последнее опционально), либо просто фото и видео. У меня оба демо (раз и два) не сработали, возможно локально запашет.

Champ: тоже аниматор на основе SD 1.5 как и тот, что выше. Но тут демо работает и есть гайд для ComfyUI. Код находится тут.

GaussianCube: генерация 3D через вокселизацию гауссиан в куб, получаемый из шума.

CityDreamer: генерация городских локаций.

🎸 ЗВУК 🎸

Resemble: добавили клонирование голоса на основе 10 секунд данных. Опенсорс всё ещё лучше.

🤖 ЧАТЫ 🤖

OpenAI: теперь ChatGPT можно использовать без регистрации и редактировать в нём изображения, используя DALL-E.

BulgakovLM 3B: языковая модель (LLM) натренированная на 100 ГБ книг, поэм, прозы, и веб-страниц на русском языке.

Jamba: это LLM на смеси архитектур Mamba, трансформеров, и MoE. Из 52B параметров, активные 12B, которые более эффективны, чем трансформер в соло. В 3 раза быстрее Mixtral и имеет контекст 256К.

C4AI: появилась демка их модели Command-R с 35B параметрами. Отвечает быстро, знает русский, производительна при работе с внешними данными (RAG).

Метод для удешевления и ускорения генераций в Mixtral.

Cloudflare: собрали на хаггинге коллекцию моделей, которые можно запустить на их бессерверной платформе Workers AI.

Gradio: улучшили UI/UX при работе с аудио, сделали оптимизации для мобилок.

MathVerse: бенчмарк для оценки визуальных языковых моделей (VLM) на их способности в работе с диаграммами.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

1 минута

3 апреля 2024