77 подписчиков

Дайджест:

📹 ВИДЕО + АРТ 🎨

Cascade совместили с FP16 инференсом, и в теории теперь генерить картинки можно например на 6 ГБ VRAM.

Forge, шустрый веб-интерфейс для локальной генерации картинок, видео, и 3D теперь доступен для установки в пару кликов через Pinokio.

Neurogen: дипфейкер Rope обновился до V2 и обзавёлся обновлённым интерфейсом и функционалом.

Phygital+: нода GPT-4, улучшение генераций DALLE 3, шаблон для трансформации лого, и другое.

SDXL-Lightning: генерим на скорости печати (другое демо). Тут можно сравнить с LCM и Turbo.

AnimateLCM: аниматор картинок на основе SVD. Тут демо.

Argus-3D: генератор 3D c неплохими мешами на выходе... но на 24 гб видюху не влезет.

LGM-Mini: лайтовая версия генератора 3D по одной картинке на основе гауссиан.

YOLOv9: сегментатор объектов на видео и картинках, хорошо показывающий себя на тестах.

Differential Diffusion: генератор схожих изображений на основе карты глубины, которую можно получить например через Marigold или Depth Anything. Код на гитхабе.

T-Stich: улучшатель генераций через SD с помощью разделения семплинга на два этапа.

RealCompo: заодно ещё один улучшатель, заточенный на композицию.

Magic Me: демка генератора видео с целевыми персонажами. Своё лицо вставить нельзя.

Открытый датасет WebVid, лежащий в основе ряда исследований генерации видео, закрылся после получения повестки в суд от Shutterstock.

SPIN: появилось демо, модели, которая генерит тренировочные данные и сама себя файнтюнит.

Joint-TensoRF: улучшаем качество нерфов.

🎸 ЗВУК 🎸

Suno: тестируют на ограниченной аудитории V3 генератора музыки. В новой версии качество стало лучше, треки длиннее и экспрессивнее, а генерации быстрее. На сайт.

Valve: выпустили в опенсорс SDK Steam Audio для работы с пространственным аудио в играх.

Вкидываем видео и генерим фоновую музыку.

Арена text-2-speech (TTS) моделей. В списке далеко не все из доступных, будет пополняться.

RWKV 4 Music: генератор MIDI, но работает странно. Можно ещё на тему MIDI глянуть плагин для Ableton.

🤖 ЧАТЫ 🤖

Ouroboros: новый алгоритм декодирования, который быстрее Speculative Decoding и Lookahead Decoding без затрат на треню.

Mistral: авторы Mixtral выпустили модель Mistral Large, показывающую себя лучше Claude 2 и Gemini Pro, но доступную доступную только через API. Можно погонять демо.

Google: выпустили опенсорсную языковую модель Gemma размером 2B и 7B. Можно потестить на Hugging Chat или тут.

Также гугл договорилась с Reddit об обучении AI на данных их пользователей за $60 млн в год. А Сэм Альтман является одним из крупнейших акционеров Reddit.

Mail Group: запускают генератор текстов и выжиматель для почты и VK. Можно записаться в список ожиданий.

Palo: мультимодальный чат с поддержкой 10 языков, включая русский.

Aria: датасет видео с видом от первого лица.

Исследование:

* Neural Network Diffusion — использование диффузионных моделей для генерации параметров для других нейронок (выжимка).

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

2 минуты

26 февраля 2024