Найти тему
75 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

Fooocus: SD генератор картинок а-ля MJ обновился до v 2.5. Добавился сегментатор SegmentAnything, улучшатель изображений, и другое по мелочи.

GaussianSplats3D: эта Three.js реализация сплатов в v 0.4.3 добавила поддержку 2DGS, и не только.

LivePortrait: появилось video-2-video демо. Ренее выходила демка для анимации картинок. Заодно портативка от Neurogen.

К ToonCrafter прицепили контроль через скетчи.

Gradio: теперь поддерживает отображение сетки и облака точек для 3D объектов.

ZLUDA: CUDA для видюх AMD обновилась до v 3.8.1. Появилась поддержка ROCm 6.1.

Neurogen: в версии v 2.4 RopeMod объединение с RopeStream, повышение скорости обработки с вебки, работа с виртуальной камерой, и не только.

Phygital+: подключили лоры для генерации через SDXL.

Anole: опенсорсная мультимодальная модель для чата и генерации картинок не на основе SD.

Fal.ai: выпустили новый генератор картинок AuraFlow. 6.8B параметров, DiT энкодер, неплохое следование промту. Качество генерации пока уступает SDXL и скорости не хватает. Демо.

RT-DETR: ещё один опенсорсный сегментатор объектов на видео в реальном времени. Пост как натренировать такую модель на своём датасете.

VADER: фреймворк для файнтюна разных генераторов видео выдавать контент в нужном ключе (alignment).

CharacterGen: создание 3D персонажей по одной картинке.

Click-Gaussian: выделяем на сплатах нужный объект и редактируем сцену. Подход интересный, но кода пока нет.

ControlNetPlus: архитектура поддерживающая 10+ контролнетов в рамках одной генерации.

🎸 ЗВУК 🎸

Nvidia: выпустили универсальный нейронный вокодер BigVGAN, который генерирует аудио, используя спектрограммы.

Emilia: датасет из 101 часа голосовых данных для тренировки своих генераторов речи (TTS). В наличии 6 языков, но русского среди них нет.

AssemblyAI: клонирование голоса с генерацией речи на целевом языке. Нужны API от ElevenLabs и AssemblyAI, хотя опенсорсных транскрибаторов и генераторов уже не мало, можно попробовать и из них собрать. Merlin получше звучит.

🤖 ЧАТЫ 🤖

InternVL2-Llama3-76B: визуальная языковая модель (VLM) для чата по картинкам (графики, документы, формулы, итд). На бенчах лучше других из опенсорсных. 108B параметров, контекст 8К.

LLava-NeXT: тоже VLM, но помимо изображений можно чатиться по видео и 3D.

SmoLM: языковая модель (LLM) маленького размера, работающая в браузере через WebGPU.

Mistral: выпустили модели MathΣtral для задач по математике и Codestral Mamba для кода. Последняя говорят не вывозит на тестах.

RunPod: значительно снизили цены на аренду облачных видюх.

Исследования:
* Использование генератора весов для эффективной тренировки генеративных моделей.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
Дайджест:  📹 ВИДЕО + АРТ 🎨  Fooocus: SD генератор картинок а-ля MJ обновился до v 2.5. Добавился сегментатор SegmentAnything, улучшатель изображений, и другое по мелочи.  GaussianSplats3D: эта Three.
2 минуты