75 подписчиков
Дайджест за выходные:
📹 ВИДЕО + АРТ 🎨
Graphit: бесплатный всё-в-одном инструмент для работы с изображениями: text2img, img2img, inpating, depth, edge, sketch, и не только.
Edit Everything: выделение и замена текстом объектов в кадре на основе Segment Anything + SD + CLIP.
SEEM: сегментация объектов в кадре мышкой, текстом или реф картинкой. Анонс был 2 недели назад, сейчас код вышел в открытый доступ (пока только на Linux).
MosaicML: воссоздали тренировку Stable Diffusion 2 за $50k и 7,5 дней, что 8 раз дешевле, чем это стоило в оригинале.
🎸 ЗВУК 🎸
Elevenlabs: добавили поддержку генерации голоса по тексту на разных языках (русского пока нет) и скоро добавят конвертацию из одной локализации в другую.
Tango: генерация звука по тексту с высоким показателем качества, хотя натренирована на маленьком датасете. Можно генерить и тренить локально.
🤖 ЧАТЫ 🤖
StableVicuna: Stability AI выпустили анонсированную ранее языковую модель, которая является зафайнтюненой версией Vicuna 13B и натренирована на человеческом фидбэке (RLHF). Также показали превью своего интерфейса для общения с чат-ботами.
MLC LLM: обёртка для запуска любых языковых моделей на разных устройствах, в том числе и на телефонах.
FastChat-T5: модель превосходит Dolly-V2, хотя у неё в 4 раза меньше параметров. Плюс её можно использовать в коммерческом ключе.
Otter: мульти-модальный чат, которому можно скармливать картинки, видео, 3D и получать ответы на свои вопросы. Натренировали на четырёх GTX 3090.
VLog: транскрипция видео в текст для суммаризации и получения ответов в режиме чата. Нужен openai API
LLaMA Adapter V2: фреймворк для расширения возможностей лама-моделей и обучения пониманию изображений.
1 минута
7 мая 2023