77 подписчиков

Дайджест:

📹 ВИДЕО + АРТ 🎨

Background Prompting: улучшение генерации 3D из одного изображения через подстановку фона, что помогает моделям сфокусироваться на объектах на переднем плане.

Attention Refocusing: исследование как улучшить text-2-image модели следовать промту. Предлагают ввести две потери для улучшения согласованности между изображениями.

Исследователи выпустили улучшенную версию VQGAN — Asymmetric VQGAN. Меньше артефактов при генерации картинок с текстом.

Zoom: теперь может делать выжимку созвонов в текстовом формате.

GenMM: появилось демо модели для генерации движения.

🎸 ЗВУК 🎸

MusicGen: модель для генерации аудио по тексту или с звуковым рефом. В отличие от существующих методов, таких как MusicLM, эта модель не требует самостоятельного семантического представления, и генерирует все 4 кодовые книги за один проход.

🤖 ЧАТЫ 🤖

DeepMind успользуют алгоритм AlphaDev который управляет выдачей и сортировкой контента. Так вот, ChatGPT за пару промтов пришёл к такому же алгоритму без человеческого фидбэка (RLHF).

StarChat: помимо альфы, теперь появилась бета-версия одного из лучших софтов для написания кода через чат. Также вышла в релиз модель StarCoderPlus, которая натренирована на датасете RedefinedWeb (также как Falcon) и позволяет коммерческое использование.

HuggingFace: обновились до v.0.20. Добавилась поддержка QLoRA, распределённого инференса, и не только.

Diffusers: библиотека обновилась до v 0.17. Из нового: улучшения в LoRA, добавлен Kandinsky 2.1, ускорена компиляция Torch, и другое.

VideoChatGPT: модель для суммаризации и чата по видео. Можно раскатать локально.

MIMIC-IT: датасет с 2.8 млн. мультимодальных инструкций и ответов, обогащенных контекстом для обучения моделей, которые смогут чатиться с изображениями или видео.

Исследования как масштабировать сферические свёрточные нейронные сети (не в вакууме).

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

Больше интересностей у меня в телеге Psy Eyes.

Дайджест: 📹 ВИДЕО + АРТ 🎨 Background Prompting: улучшение генерации 3D из одного изображения через подстановку фона, что помогает моделям сфокусироваться на объектах на переднем плане.

1 минута

9 июня 2023