80 подписчиков
Дайджест:
📹 ВИДЕО + АРТ 🎨
Kling: генератор видео обновился. Теперь в text-2-video режиме выдаются 10 сек видосы, а в image-2-video на сайте завезли контроль камеры и настраиваемые интро/аутро.
Появились колабные и Tost демо для генератора картинок Kolors. Плюс интенсивные тесты (отсюда и ниже).
ControlNet Union: модель, позволяющая использовать более одного контролнета одновременно и экономить память видюхи. Пока работает в экспериментальном режиме.
Тренировка моделей в Comfy с добавлением кастомных слоёв, вроде линейных или конволюционных.
Comfy3D: у этого генератора 3D в Comfy улучшилось качество мешей персонажей и упростилась установка.
Phygital+: ноды SDXL и SD 1.5 теперь работают в 2 раза быстрее. Плюс промт-ассистент на основе GPT-4o.
VEGS: модель для получения четких поверхностей в сплатах и возможности перемещения объектов в сцене.
ControlNeXt: контроль движения объектов на фото/видео. На 90% меньше параметров, чем у ControlNet поэтому работает быстрее, но к качеству вопросы.
🎸 ЗВУК 🎸
RC Stable Audio Tools: тренируем свои музыкальные модели и генерим музыку. Фичи этого форка: динамическая загрузка моделей, получение MIDI, фиксация BPM.
🤖 ЧАТЫ 🤖
Ollama: в версии v 0.2 теперь можно обрабатывать запросы на генерацию текста параллельно без сильного увеличения в потреблении VRAM (например для команды), и запускать сразу несколько моделей.
TTT-Linear: новая архитектура языковых моделей (LLM), которая показывает себя лучше трансформеров и mamba на длинном контексте.
Anthropic: артефактами теперь можно делиться, а промты в консоли для разработчиков оценивать и сравнивать бок-о-бок.
Nvidia: выпустили VILA, визуальную языковую модель (VLM) для чата по видео и множеству картинок одновременно. Может работать на телефоне.
💬 Делайте выжимки из доков и чатьтесь по ним с помощью Claude
1 минута
10 июля 2024