Найти тему
76 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

Face-to-All теперь можно погонять локально через Pinokio.

StabilityAI: для CosXL подъехало демо и установка в 1 клик.

InstantStyle: у генератора картинок в нужном стиле появилось официальное демо и установщик в Pinokio.

MagicTime: генерим короткие таймлапсы.

StableDesign: закидываем фото пустого помещения и генерим желаемый интерьер.

ComfyUI zone:
* API для использования ComfyUI внутри Nuke.
* BrushNet: изменяем объекты на картинках с высокой консистентностью. Ранее упоминал тут.
* ResNet: расширение позволяющее моделям генерить картинки в любых разрешениях. (спс @analball)

InstantMesh: генератор 3D по изображению. Сначала делает мультикам обзор, а потом ваяет меш. CRM на тестах плоских объектов лучше себя показал. Однако если у объекта изначально ощущается объём, то результат может быть лучше. Нода для Comfy.

MagicClothing: примеряем одежду на своих фото, вкидывая картинку с нарядом. Форк одеватора OOTDiffusion.

tldraw: добавили в доску для скетчей генерацию интерфейсов и прочего через Claude.

ZLUDA: фреймворк для поддержки CUDA на видюхах AMD обновился до v 3.7. В пре-релизе v 3.8, огласка проекта явно придала делу ход.

Sber: выпустили Kandinsky 3.1. Пришили IP-Adapter, инпейтинг, контролнет, улучшение промта юзера с помощью LLM, и не только.

Bytedance: релизнули модель ContrloNet++ с фокусом улучшении консистентности генерации изображений.

Adobe: до конца 2024 выпустят редактирование видео в Premiere Pro как и показывали в прошлом году. Теперь стало известно, что помимо Firefly будут использоваться модели OpenAI, Pika, и Runway для продления недостающего футажа или генерации нового.

🎸 ЗВУК 🎸

Spotify: тестируют в определённых регионах генерацию плейлистов по текстовому запросу.

ParlerTTS: новый генератор речи с фокусом на контроле результата текстовым описанием. MeloTTS и ко повеселей.

🤖 ЧАТЫ 🤖

GGUF my repo: печём как пирожки свои квантизированные LLM из моделей на хаггинге.

CleanLab: проверяем любые датасеты (текст, картинки, видео, и т.д.) на качество и выявляем, что нужно исправить. Работает с любыми моделями.

torchtune: альфа версия библиотеки на PyTorch для файнтюна языковых моделей (LLM) с эффективным использованием памяти: всё тестировалось на видюхах с 24 ГБ.

Андрей Картпаты наваял llm.c на чистом С, для тренировки LLM без зависимостей на разных устройствах.

Cohere: только вышла 34B модель, как разрабы уже выпустили Command R+ размером 104B с контекстом 128К (можно скармливать книжки). Есть демо (раз и два) и народ уже гоняет локально, в том числе и 4-bit версии. Говорят на арене чатботов это первая опенсорсная модель, задвигающая GPT-4.

JetMoE: 8B LLM на архитектуре MoE, показывающая себя лучше ламы 2-7B, при это тренировка обошлась меньше $0.1M

Open AI: обновили GPT-4 Turbo, улучшив работу с логикой, математикой и ответами в целом.

Zephyr: выпустили LLM размером 141B, являющуюся файнтюном Mixtral 8x22B.

Intel: показали чипы Gaudi 3, которые будут соперничать с H100 от Nvidia.

Google: выпустили RecurrentGemma с быстрым инференсом при генерации длинных текстов, за счёт работы на новой архитектуре Griffin. (спс @JohnDoe171)

Заодно вот CodeGemma-7B, файнтюн оригинально Gemma, заточенный на коде.

Adobe: добавили AI-ассистента в Acrobat Reader для выжимки доков и чата по ним.

OmniFusion: мультимодальная языковая модель с поддержкой русского языка.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
2 минуты