Найти тему
75 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

AnyText: замена текста на изображении с учётом стиля. Работает не идеально, но для черновиков или мемов может сгодиться.

GALA: преобразование фото человека в 3D с разбивкой одежды на слои, которые можно комбинировать.

Конкурс генерации интерьерного дизайна с призовым пулом в $15k.

DynamiCrafter: неплохой аниматор изображений, но требовательный к железу. Сравнение с SVD и Pika тут.

Meshy: выпустили версию V2 своего генератора 3D. Улучшилась детализация моделей, и стало больше стилей, включая low poly и voxel.

EscherNet: генерим 3D по одной картинке в нужных позициях камеры.

Phygital+: вернули ноду Blend и добавили подключение референса для Midjourney из любой ноды.


Apple: редактируем изображение текстовыми указаниями через MGIE.

InteractiveVideo: анимация картинки и редактирование видео промтом.

Генерим анимации через AnimateLCM и меняем стиль видео через Diffutoon. Также на эти темы стоит посмотреть PIA и ещё StreamDiffusion.

Depth Anything добавили в библиотеку transformers.js, а генератор видео I2vGenXL в библиотеку diffusers.

Odyssey: нодовый интерфейс для локальной генерации изображений и текста на Mac. (спс @JohnDoe171)

Апскейлим фото через SUPIR и улучшаем видео через FMA-Net. Из других вариков на тему ещё можно попробовать PASD или Span или DiffBIR или StableSR.

OwlSAM: сегментатор картинок.

🎸 ЗВУК 🎸

CreateOS: открыли публичный доступ к Triniti, инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.

MetaVoice-1B: небольшая моделька для клонирования голоса, натренированная на 100к часов аудио. XTTS и HierSpeech++ пока всё ещё звучат лучше.

Генератор звуковых эффектов для картинки. Три модели на выбор: MAGNet, AudioLDM-2, и AudioGen.

И генератор музыки из картинки.

🤖 ЧАТЫ 🤖

Gradio: обновился до V 4.17. Много мелких улучшений. Ещё можно модальные окна теперь выдавать.

AutoLLM: фреймворк для файнтюна языковых моделей (LLM) с поддержкой внешнего источника знаний (RAG).

Yandex: представили метод квантизации AQLM, позволяющий сжимать модели вплоть до 2 бит, и как следствие запускать Llama 2 70b на RTX 3090 или маленькие модели на мобилках.

Nuanced: выкатили детектор сгенерированных картинок.

Vikhr (Вихрь): серия русифицированных LLM. Разрабы адаптируют разные открытые модели на русский язык.

CogCoM: визуальная языковая модель (VLM), которая может изменять изображение (приближение, кадрирование, итд) для лучшего общения по нему.

MobileVLM: вышла версия V2 этой VLM, заточенной под работу на мобилках. Под капотом новая архитектура и повысившаяся производительность.

BlackMamba: языковая модель на новой архитектуре, сочетающей модели пространства состояний (SSM) и коллаб экспертов (MoE) как Mixtral. В качестве блока SSM в ней используется Mamba, а в качестве базы для блока MoE — переключающий трансформатор.

Qwen 1.5: чат с большой моделью в 72B.

Google: предлагают запускать нейронки, не используя GPU — только CPU и RAM с помощью localllm.... на их облачных рабочих станциях.

Nomic Embed: новая энкодер модель для получения эмбеддингов.

EVA: новая CLIP модель с 18B параметрами.

SynthCLIP: тренировка CLIP моделей на синтетических данных.
2 минуты