80 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
Pinokio: в версии v 1.3.0 много нового: теперь что-угодно связанное с AI можно заскриптовать; модульность и распределённый подход — одно AI-приложение может вызывать другое, экономя место на диске и память; и не только.
Semantic Palette, в котором можно рисовать и генерировать по слоям, скрестили с Animagine XL для работы чисто в анимешном стиле.
ReNoise: редактируем изображения текстовым промтом. Работает только с разрешением 512х512 и то не ахти.
DragAnything: контроль объектов на видео, с помощью перетаскивания мышкой. Говорят по фидбеку лучше DragNUWA, но движения часто выглядят статично.
🎸 ЗВУК 🎸
Runway: добавили липсинк сразу после новостей о липсинке от Pika. У обоих компаний пока получается не особо. Причём у Runway что-то и не так с глазами на генерациях.
OpenAI: представили Voice Engine, с помощью которого их генератор речи (TTS) может копировать ваш голос. Потестить пока нельзя.
🤖 ЧАТЫ 🤖
Серия моделей Qwen пополнилась MoE-вариантом из небольших 2.7B нейронок. Работает шустро, но с названиями надо поработать, а то Qwen1.5-MoE-A2.7B-Chat словно заклинание из Гарри Поттера.
Cerebrum 8x7b: ещё одна MoE-модель. Основана на Mixtral и отличается тем, что натренирована разрабатывать тактический план, прежде чем решать проблемы, требующие размышлений и зафайнтюнена с помощью нового эффективного метода targeted RLHF (tRLHF).
LITA: визуальная языковая модель (VLM) с фокусом на видео, использующая Llava и ffmpeg для покадрового анализа.
Lavague: фреймворк для интерактивного взаимодействия с сайтами через текстовое описание... до первой капчи.
xAI: появилась PyTorch версия Grok, нужно лишь 8х80 ГБ VRAM, чтобы запустить. Или квантизированная GGUF, говорят может влезть в 128 ГБ оперативки. Тем временем Илон уже тизерит Grok-1.5 с расширенным контекстом в 128к и улучшениями в работе с кодом и математикой. Владельцы премиумов в твиттере смогут потестить.
Исследования:
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
2 минуты
30 марта 2024