75 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
AnyText: замена текста на изображении с учётом стиля. Работает не идеально, но для черновиков или мемов может сгодиться.
Конкурс генерации интерьерного дизайна с призовым пулом в $15k.
DynamiCrafter: неплохой аниматор изображений, но требовательный к железу. Сравнение с SVD и Pika тут.
Meshy: выпустили версию V2 своего генератора 3D. Улучшилась детализация моделей, и стало больше стилей, включая low poly и voxel.
Генерим анимации через AnimateLCM и меняем стиль видео через Diffutoon. Также на эти темы стоит посмотреть PIA и ещё StreamDiffusion.
Depth Anything добавили в библиотеку transformers.js, а генератор видео I2vGenXL в библиотеку diffusers.
Апскейлим фото через SUPIR и улучшаем видео через FMA-Net. Из других вариков на тему ещё можно попробовать PASD или Span или DiffBIR или StableSR.
🎸 ЗВУК 🎸
CreateOS: открыли публичный доступ к Triniti, инструмента для генерации музыки, клонирования голоса, и воспроизведения вокала целевого артиста нужным образом.
MetaVoice-1B: небольшая моделька для клонирования голоса, натренированная на 100к часов аудио. XTTS и HierSpeech++ пока всё ещё звучат лучше.
🤖 ЧАТЫ 🤖
AutoLLM: фреймворк для файнтюна языковых моделей (LLM) с поддержкой внешнего источника знаний (RAG).
Yandex: представили метод квантизации AQLM, позволяющий сжимать модели вплоть до 2 бит, и как следствие запускать Llama 2 70b на RTX 3090 или маленькие модели на мобилках.
Vikhr (Вихрь): серия русифицированных LLM. Разрабы адаптируют разные открытые модели на русский язык.
CogCoM: визуальная языковая модель (VLM), которая может изменять изображение (приближение, кадрирование, итд) для лучшего общения по нему.
MobileVLM: вышла версия V2 этой VLM, заточенной под работу на мобилках. Под капотом новая архитектура и повысившаяся производительность.
BlackMamba: языковая модель на новой архитектуре, сочетающей модели пространства состояний (SSM) и коллаб экспертов (MoE) как Mixtral. В качестве блока SSM в ней используется Mamba, а в качестве базы для блока MoE — переключающий трансформатор.
Google: предлагают запускать нейронки, не используя GPU — только CPU и RAM с помощью localllm.... на их облачных рабочих станциях.
2 минуты
8 февраля 2024