80 подписчиков

Дайджест:

📹 ВИДЕО + АРТ 🎨

Появилась демка генератора видео ExVideo.

Ostris сделал 16-канальный VAE для тех, кто создаёт свою text-2-image модель. Он даёт больше деталей, структурную консистентность, и лучше цвета. Данный VAE легче других (57 млн параметров vs 83 млн у SD3), он быстрее и потребляет меньше VRAM. Автор делает адаптеры для SD 1.5, SDXL и PixArt. Лицензия MIT.

Fal: тоже натренировали 16-канальный VAE.

Тренировка SD3 в колабе. Подогнали 8-битную версию, которая влезает в бесплатную подписку (~ 10 ГБ VRAM). Для трени в FP16 понадобится 12 ГБ, а в FP32 примерно 20 ГБ.

Контролнет Depth Anything V2 теперь поддерживается в A1111.

LyCORIS: в версии V3 этого софта для тренировки/файнтюна text-2-image моделей появились новые модульные/ функциональные/ параметрические API, повысилась эффективность, и другое по мелочи.

3DGS-MCMC: метод повышения детализации сплатов.

Figma: выкатили AI-фичи, и отменили их когда народ заметил, что оно копирует существующие дизайны.

Neurogen: дипфейкер FaceFusion обновлён до беты v 2.7. Базируется на Cuda 12.4, изменён алгоритм отключения цензуры, добавлен батник для работы с вебкой, и другое.

AuraSR: апскейлер картинок, являющийся опенсорсной реализацией GigaGAN.

Расширенный стайлтрансфер в Comfy с помощью ноды Made Scientist и CosXL-edit.

Stable Projectorz: генерим текстуры для 3D объектов.

Omni-zero: вписываем человека в нужный стиль и указываем позу.

pOps: собираем изображение с объектом, подгружая реф текстуры и сцены.

🎸 ЗВУК 🎸

Suno: выкатили приложение для iOS.

ElevenLabs: зарелизили Voice Isolator для выделения голоса среди шумов (их пример). Видимо только от шумов, вокал от музыки не выделяет.

MARS5: генератор речи на 140 языках с клонированием голоса на основании 6 сек аудио. Нужно 20 ГБ VRAM.

FoleyCrafter: генератор звуковых эффектов к видео. у ElevenLabs лучше получается.

Resemble: выпустили модель DETECT-2B для распознавания аудио дипфейков.

🤖 ЧАТЫ 🤖

GPT4ALL: В версии V3 этого софта для локального чата с разными языковыми моделями (LLM) обновили интерфейс.

MiniCPM: маленькая, но способная LLM, требующая всего 2 ГБ VRAM и работающая на смартфонах. Есть англ гихаб.

InternLM 2.5: 7B языковая модель с контекстом 1 млн токенов (можно скормить вагон книг). Правда, чтобы погонять нужно 4 A100.

InternLM-XComposer-2.5: визуальная языковая модель (VLM) для чата по видео и картинкам. Поддерживает работу по нескольким изображениям, может генерировать веб-страницы на HTML.

Таблица для сравнения цен на работу с LLM.

Gradio: если вы используете в своём AI-приложении gradio 3.13 или старее, то ссылки для расшаривания больше не работают из-за соображений безопасности. Обновите Gradio.

Кстати теперь в v 4.37 Gradio можно чатиться компонентами приложений (например музыкальным плеером) и появилась поддержка GIF.

Kyutai: выпустили модель Moshi, с которой можно общаться голосом в реальном времени. Говорят, что может влезть на мак или геймерскую видюху. Преза. Код будет позже.

Hugging Face: обновили страницу для поиска датасетов. Появились фильтры по: модальности, размеру, формату (json, csv, итд).

OpenAI: сделали CriticGPT для критики ChatGPT.

Google: выпустили Gemma 2 размером 9B и 27B, которая неплохо себя показывает и можно попробовать запустить на геймерском железе. Контекст 8К. Онлайн демо, плюс SPPO версия.

Block Transformer: архитектура языковых моделей (LLM) с глобально-локальным построением, ускоряющая инференс в 10-20 раз.

Запрещёнка: выкатила языковую модель LLM Compiler для написания кода. Построена на основе Code Llama с улучшениями в оптимизации кода и компиляции. Также выпустили модели для дописывания кода, использующую multi-token prediction.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude

3 минуты

5 июля 2024