89 подписчиков

Дайджест за выходные:

📹 ВИДЕО + АРТ 🎨

Graphit: бесплатный всё-в-одном инструмент для работы с изображениями: text2img, img2img, inpating, depth, edge, sketch, и не только.

Edit Everything: выделение и замена текстом объектов в кадре на основе Segment Anything + SD + CLIP.

SEEM: сегментация объектов в кадре мышкой, текстом или реф картинкой. Анонс был 2 недели назад, сейчас код вышел в открытый доступ (пока только на Linux).

MosaicML: воссоздали тренировку Stable Diffusion 2 за $50k и 7,5 дней, что 8 раз дешевле, чем это стоило в оригинале.

🎸 ЗВУК 🎸

Elevenlabs: добавили поддержку генерации голоса по тексту на разных языках (русского пока нет) и скоро добавят конвертацию из одной локализации в другую.

Tango: генерация звука по тексту с высоким показателем качества, хотя натренирована на маленьком датасете. Можно генерить и тренить локально.

🤖 ЧАТЫ 🤖

StableVicuna: Stability AI выпустили анонсированную ранее языковую модель, которая является зафайнтюненой версией Vicuna 13B и натренирована на человеческом фидбэке (RLHF). Также показали превью своего интерфейса для общения с чат-ботами.

MLC LLM: обёртка для запуска любых языковых моделей на разных устройствах, в том числе и на телефонах.

FastChat-T5: модель превосходит Dolly-V2, хотя у неё в 4 раза меньше параметров. Плюс её можно использовать в коммерческом ключе.

Otter: мульти-модальный чат, которому можно скармливать картинки, видео, 3D и получать ответы на свои вопросы. Натренировали на четырёх GTX 3090.

VLog: транскрипция видео в текст для суммаризации и получения ответов в режиме чата. Нужен openai API

LLaMA Adapter V2: фреймворк для расширения возможностей лама-моделей и обучения пониманию изображений.

Дайджест за выходные: 📹 ВИДЕО + АРТ 🎨 Graphit: бесплатный всё-в-одном инструмент для работы с изображениями: text2img, img2img, inpating, depth, edge, sketch, и не только.

1 минута

7 мая 2023