75 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
Background Prompting: улучшение генерации 3D из одного изображения через подстановку фона, что помогает моделям сфокусироваться на объектах на переднем плане.
Attention Refocusing: исследование как улучшить text-2-image модели следовать промту. Предлагают ввести две потери для улучшения согласованности между изображениями.
Исследователи выпустили улучшенную версию VQGAN — Asymmetric VQGAN. Меньше артефактов при генерации картинок с текстом.
🎸 ЗВУК 🎸
MusicGen: модель для генерации аудио по тексту или с звуковым рефом. В отличие от существующих методов, таких как MusicLM, эта модель не требует самостоятельного семантического представления, и генерирует все 4 кодовые книги за один проход.
🤖 ЧАТЫ 🤖
DeepMind успользуют алгоритм AlphaDev который управляет выдачей и сортировкой контента. Так вот, ChatGPT за пару промтов пришёл к такому же алгоритму без человеческого фидбэка (RLHF).
StarChat: помимо альфы, теперь появилась бета-версия одного из лучших софтов для написания кода через чат. Также вышла в релиз модель StarCoderPlus, которая натренирована на датасете RedefinedWeb (также как Falcon) и позволяет коммерческое использование.
HuggingFace: обновились до v.0.20. Добавилась поддержка QLoRA, распределённого инференса, и не только.
Diffusers: библиотека обновилась до v 0.17. Из нового: улучшения в LoRA, добавлен Kandinsky 2.1, ускорена компиляция Torch, и другое.
MIMIC-IT: датасет с 2.8 млн. мультимодальных инструкций и ответов, обогащенных контекстом для обучения моделей, которые смогут чатиться с изображениями или видео.
Исследования как масштабировать сферические свёрточные нейронные сети (не в вакууме).
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
1 минута
9 июня 2023