75 подписчиков

Дайджест:

📹 ВИДЕО + АРТ 🎨

Pixel-Art-XL: генерируем пиксель арт.

Можно погонять SDXL на A100 бесплатно в веб-интерфейсе A1111.

Первые подвижки в сторону применения ControlNet для SDXL.

LISA: сегментация объектов на картинке с помощью чата.

DWPose: новый метод переложения движений на персонажа. Работает лучше openpose, но и кушает знатно — 12 ГБ VRAM нужно минимум. Поэтому ловим колаб. Заодно вариант в 4D Humans.

PhotoSwap: вышел код модели для замены объектов в кадре по рефу.

Mirror-NeRF: исправляем проблему нерфов с рендером зеркальных поверхностей.

Prithvi: NASA и IBM объединились и выложили модель для исследования поверхности земли.

ConceptLab: смешиваем стили, объекты и живых существ, чтобы получить новый вид или предмет. Кода пока нет.

🎸 ЗВУК 🎸

Music to Zeroscope Video: наикрутейший чувак Sylvain Filoni продолжает ваять как пирожки интерефейсы к моделям для генерации. На этот раз у нас появился интерфейс для генерации видео по музыке.

Music-2-Image: теперь можно указать есть ли в треке слова. Если да, то картинка будет генерится ближе к тексту песни.

Song To Lyrics: если не получается разобрать, что поётся в треке, с помощью этой модели можно получить расшифровку. На мамбл рэпе нейронка повесится, инфа сотка.

MusicLDM: модель для генерации музыки и звуков, использующая стратегии смешивания синхронизации по битам для увеличения новизны и разнообразия музыкального стиля. Не путать с гуглом у которых AudioLDM, кода нет.

🤖 ЧАТЫ 🤖

HypeWrite: представили ассистента Agent-1, который может управлять программами используя графический интерфейс.

LMSYS: выпустили модель Longchat-7b-v1.5 с контекстом 32K на основе ламы 2.

LLaMA-2 Accessory: набор инструментов для разработки LLM. Подойдёт для предобучения, файнтюна, работы с API, и не только.

Vicuna: обновилась до v1.5. Теперь она основана на ламе 2 с дружелюбной коммерческой лицензией и имеет контексты в 4к и 16к.

OpenChat: обновился до v 3.2, тоже можно использовать в коммерческих целях под лицензией ламы 2.

У обычной архитектуры Mixture of Experts (MOE) есть проблемы со стабильностью трени, масштабируемостью, и эффективностью файнтюна. Исследование представили архитектуру Soft Mixture of Experts (SMoE), которая решает эти проблемы.

DeepSpeed-Chat: как быстро и недорого организовать RLHF треню для LLM любых масштабов.

Rejection sampling Fine-Tuning (RFT): улучшаем математическое рассуждение в больших языковых моделях, достигая 49,3% точности.

Retroformer: фреймворк для улучшения работы AI-агентов. Retroformer использует модель, которая автоматически настраивает запросы языкового агента на основе обратной связи из окружающей среды через градиентную политику.

Openfabric: использование AI, чтобы ускорить нахождение лекарств от болезней.

Quickverse: автоматизированный перевод приложений.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

2 минуты

9 августа 2023