77 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
Cascade совместили с FP16 инференсом, и в теории теперь генерить картинки можно например на 6 ГБ VRAM.
Forge, шустрый веб-интерфейс для локальной генерации картинок, видео, и 3D теперь доступен для установки в пару кликов через Pinokio.
Phygital+: нода GPT-4, улучшение генераций DALLE 3, шаблон для трансформации лого, и другое.
Differential Diffusion: генератор схожих изображений на основе карты глубины, которую можно получить например через Marigold или Depth Anything. Код на гитхабе.
Открытый датасет WebVid, лежащий в основе ряда исследований генерации видео, закрылся после получения повестки в суд от Shutterstock.
🎸 ЗВУК 🎸
Suno: тестируют на ограниченной аудитории V3 генератора музыки. В новой версии качество стало лучше, треки длиннее и экспрессивнее, а генерации быстрее. На сайт.
Арена text-2-speech (TTS) моделей. В списке далеко не все из доступных, будет пополняться.
RWKV 4 Music: генератор MIDI, но работает странно. Можно ещё на тему MIDI глянуть плагин для Ableton.
🤖 ЧАТЫ 🤖
Ouroboros: новый алгоритм декодирования, который быстрее Speculative Decoding и Lookahead Decoding без затрат на треню.
Mistral: авторы Mixtral выпустили модель Mistral Large, показывающую себя лучше Claude 2 и Gemini Pro, но доступную доступную только через API. Можно погонять демо.
Google: выпустили опенсорсную языковую модель Gemma размером 2B и 7B. Можно потестить на Hugging Chat или тут.
Также гугл договорилась с Reddit об обучении AI на данных их пользователей за $60 млн в год. А Сэм Альтман является одним из крупнейших акционеров Reddit.
Mail Group: запускают генератор текстов и выжиматель для почты и VK. Можно записаться в список ожиданий.
Исследование:
* Neural Network Diffusion — использование диффузионных моделей для генерации параметров для других нейронок (выжимка).
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
2 минуты
26 февраля 2024