Найти в Дзене
80 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

Pinokio: в версии v 1.3.0 много нового: теперь что-угодно связанное с AI можно заскриптовать; модульность и распределённый подход — одно AI-приложение может вызывать другое, экономя место на диске и память; и не только.

Fooocus: обновился до v 2.3.1 с разными мелкими улучшениями.

Semantic Palette, в котором можно рисовать и генерировать по слоям, скрестили с Animagine XL для работы чисто в анимешном стиле.

ReNoise: редактируем изображения текстовым промтом. Работает только с разрешением 512х512 и то не ахти.

DragAnything: контроль объектов на видео, с помощью перетаскивания мышкой. Говорят по фидбеку лучше DragNUWA, но движения часто выглядят статично.

SDXS: метод тренировки моделей для качественной генерации в 1 шаг. Работает с контролнетом.

InteX: генерация текстур через инпейнтинг.

Adobe: добавили в FireFly генерацию по рефу, очевидно с контролнетом под капотом.

🎸 ЗВУК 🎸

Runway: добавили липсинк сразу после новостей о липсинке от Pika. У обоих компаний пока получается не особо. Причём у Runway что-то и не так с глазами на генерациях.

OpenAI: представили Voice Engine, с помощью которого их генератор речи (TTS) может копировать ваш голос. Потестить пока нельзя.

Hume: зато можно пощупать эту TTS, которая может понимать эмоции и отвечать в твоём тоне.

🤖 ЧАТЫ 🤖

Stability AI: выпустили маленькую (3B), но шуструю модель для генерации кода.

Серия моделей Qwen пополнилась MoE-вариантом из небольших 2.7B нейронок. Работает шустро, но с названиями надо поработать, а то Qwen1.5-MoE-A2.7B-Chat словно заклинание из Гарри Поттера.

Cerebrum 8x7b: ещё одна MoE-модель. Основана на Mixtral и отличается тем, что натренирована разрабатывать тактический план, прежде чем решать проблемы, требующие размышлений и зафайнтюнена с помощью нового эффективного метода targeted RLHF (tRLHF).

mPLUG-DocOwl: языковая модель (LLM) для чата по документам.

LITA: визуальная языковая модель (VLM) с фокусом на видео, использующая Llava и ffmpeg для покадрового анализа.

Cobra: тоже VLM, но для чата по картинкам. На ввод можно подать изображение и текст одновременно.

Yandex: выпустили YandexGPT 3 с фокусом на бизнес сегменте.

Lavague: фреймворк для интерактивного взаимодействия с сайтами через текстовое описание... до первой капчи.

xAI: появилась PyTorch версия Grok, нужно лишь 8х80 ГБ VRAM, чтобы запустить. Или квантизированная GGUF, говорят может влезть в 128 ГБ оперативки. Тем временем Илон уже тизерит Grok-1.5 с расширенным контекстом в 128к и улучшениями в работе с кодом и математикой. Владельцы премиумов в твиттере смогут потестить.

Исследования:
* LISA — метод для файнтюна 7B моделей на 24 ГБ картах. Схожее с GaLore.

💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
2 минуты