90 подписчиков

Дайджест:

📹 ВИДЕО + АРТ 🎨

DiffBIR: апскейлер для зашакаленных фото в плохом качестве. Ловите заодно портативную сборку.

Интерфейс для трени Dreambooth лоры под SDXL. Заодно вот T2I-адаптер для SDXL + генератор по скейтчам Doodly на его основе.

Collage Diffusion: вкидываем объекты на разных слоях и генерим общее изображение.

TokenFlow: появилось демо vid-2-vid редактора.

Threestudio: фреймворк для генерации 3D контента.

ResFields: создание динамичных нерфов с хорошей детализацией за счёт использования временных остаточных слоёв (residual fields).

SyncDreamer: генерим 3D из одной картинки.

DEVA: сегментация множества объектов на видео без предварительной тренировки.

Bayes' Rays: метод оценки неопределённых частей нерф-сцены.

EasyPhoto: генерим фото с собой в разных стилях.

TRAvatar: создание аватара человека в реальном времени с высокой детализацией. Кода пока нет.

PhotoVerse: аналог Dreambooth для вписывания человека в фото разных стилей. Кода пока нет.

InstaFlow: метод для качественной txt-2-img генерации в 1 шаг. Без кода.

🎸 ЗВУК 🎸

Массовое создание аудиокниг на основе библиотеки свободных электронных книг проекта Gutenberg.

🤖 ЧАТЫ 🤖

Hugging Face: добавили в Hugging Chat модель Falcon-180B (выбирается в меню) и обновили веб-поиск для вывода ответа, основываясь на множестве источников. Ещё выпустили Dataset Viewer для поиска определённого контента в датасетах и возможность шарить коллекцию из разных моделей, датасетов итд.

Retention: новый метод являющийся альтернативой Attention у трансформеров. Retentive network (RetNet) модели потребляют меньше VRAM, производительнее, быстрее, и легче масштабируются.

AgentVerse: фреймворк, котором множество AI-агентов в виде LLM могут взаимодействовать для решения задач вроде написания ПО, использование веб-инструментов, итд.

Persimmon-8B: LLM с дружелюбной лицензией и 16к контекстом.

Qwen-VL: колаб для мультимодальной модели от Alibaba.

Nougat: демо модели для распознавания текста на PDF.

FLM-101B: опенсорсная LLM с 101B параметрами, на треню которой ушло всего $100k.

Apple: представили вариант комбинации экспертов (SMoE), который менее требовательный к ресурсам и более мобилен (V-MoE).

Next-GPT: мультимодалка которая может брать на вход текст, картинки, аудио, видео и отвечать тоже с ними. Кода пока нет.

CM3Leon: мультимодалка, которая может генерить картинки с текстом, при этом для трени им понадобилось в 5 раз меньше мощностей.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

2 минуты

15 сентября 2023