Найти в Дзене
76 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

Nvidia: обновили TensorRT, ускоритель генераций на основе SD, до версии V 0.2. Появилась поддержка генерации видео через SVD, лор на SDXL, можно комбинировать лоры, и прочее по мелочи.

Luma: 3D генератор Genie вышел в релиз V 1.0 на сайте и в iOS приложении. Улучшилось качество мешей и материалов.

Triplane Gaussian: быстрый генератор гауссианов по одной картинке.

Pika: ввели подписки. На бесплатном тарифе 30 кредитов, которых хватит на 9 секунд генерации видео. Кредиты восстанавливаются ежедневно. Платки варьируются от 8$ до $58 в месяц. На самом деле я удивлён, что они ввели это только сейчас.

Hand Refiner: моделька заточенная под исправление кривых рук на генерациях.

Alibaba: меняем фон, одежду и вписываем объекты в нужный контекст с Replace Anything.

У PixArt появилась LCM модель, демки для Alpha генератора, и готовится Betta генератор.

Moore Threads: выкатили свою продвинутую версию AnimateAnyone для получения анимации человека по одному фото. Также запустили платформу для AI-контента Maliang.

Anim-400K: датасет для автоматизированного дубляжа с японского на английский и наоборот.

Демка апскейлера зашакаленных изображений PASD Magnify.

Получаем 3D модели животных по фото.

Open-Vocabulary SAM: сегментируем объекты на картинках по клику.

audio2photoreal: скармливаем запись диалога и поучаем 2 анимированных аватара.

Меняем текст на изображении с учётом контекста.

CoTracker запрещёнки теперь может отслеживать в 10 раз больше точек на видео.

MotionGPT: генерим текстом движения персонажа или получаем описание движений.

🎸 ЗВУК 🎸

Royal: выкатили Sonic для генерации ремиксов на треки известных артистов, их минтингом ончейн, и возможностью монетизации через дистрибуцию и прочее. Сейчас можно сделать рем на 3LAU. Есть похожий проект — Korus.

Запрещёнка выпустила генератор музыки MAGNeT, который вроде как выдаёт аудио с меньшими артефактами и быстрее, но не могу сказать, что звучит сильно лучше MusicGen. Ещё зарелизили SeamlessExpressive, модель для высококачественного голосового перевода с сохранением интонации автора.

OpenVoice: открытая модель для клонирования голоса с контролем над интонациями и другими эмоциональными деталями.

Tencent: генерим музыку с помощью M2UGEN на основе текста, видео или картинок, чатимся по ней, и редактируем промтом. Качество пока не очень, но посмотрим куда пойдёт. Свободная лицензия MIT.

DreamTalk: липсинк голоса с указанным фото.

Nvidia: переводим голос в текст с помощью Parakeet.

🤖 ЧАТЫ 🤖

Видеогайд как зафайнтюнить Mixtral 8x7B под себя. Ранее от них же вышел гайд как зафайнтюнить Mistral.

С помощью Gradio Lite можно можно строить бессерверные AI-приложения, которые будут работать приватно прямо в браузере. Есть Playground чтобы потестить код в реальном времени.

На выставке CES 2024 AMD представили видюху RX 7600 XT и процессоры серии Ryzen 8000 со встроенным нейронным NPU-ускорителем для работы с нейросетями без использования видеокарты. Intel тоже внедряет NPU в свои чипы. Nvidia ответили видюхами 40-й серии Super: RTX 4080 Super, RTX 4070 Ti Super, RTX 4070 Super + ранее анонсировали 4090 D как решение для обхода санкций. Из софта показали Audio2face для липсинка, NPC с которыми можно общаться голосом в играх, Convai для быстрого создания аватаров, RTX Chat для работы с LLM, и iStock как аналог Firefly. Мобильные процессоры от Google и Qualcomm берут вектор на локальный инференс AI на телефоне. Ноутбуки Microsoft обзаведутся кнопкой для запуска AI-ассистента Copilot. Также показали NPU-ускорители в формфакторах NVMe и PCI-E карт от Panmnesia, Neuchips, DeepX, и других производителей.

NeuralMagic: Ламу 2 запустили на CPU и зафайнтюнили на датасете связанным с математикой.

OpenAI: запустили GPT Store. В каталоге уже 3+ млн пользовательских GPT. Есть фильтрация и каждую неделю будут кураторские подборки. Магазин доступен подписчикам Plus, Enterprise, а также нового тарифа Team. Позже подъедет монетизация GPT, но только в определённых странах.

OpenChat: производительная 7B LLM теперь доступна через меню Hugging Chat.
3 минуты