Найти в Дзене
79 подписчиков

Дайджест:


📹 ВИДЕО + АРТ 🎨

EasyAnimate: генерация фото и видео 6 сек 24 fps на архитектуре трансформеров.

T2V-Turbo: быстрая генерация коротких видео с максимальным разрешением 320х512.

ToonCrafter: ускоряем создание анимации, за счёт генерации промежуточных кадров. Вот ещё PasicPBC заодно для колоризации.

Phygital+: добавили IP-Adapter XL и генерацию видео через SVD.

Consistent Character: создаём консистентные фото с целевым персонажем в разных позах. Работает с анимацией, есть воркфлоу для Comfy и гитхаб. Можно даже скормить в ToonCrafter.

Omost: новый проект автора контролнета, использующий LLM для композиции генерируемого изображения. Сначала вкидываем промт и кликаем Submit. Получив код нажимаем Render и ловим картинку.

Xinsir: касательно самого контролнета. Появилась новая модель Xinsir под SDXL, показывающая хорошие результаты. До этого ещё вышла Mistoline тоже на SDXL.

MusePose: подъехал Comfy для этого аниматора персонажей.

V-Express: генерация говорящих голов с липсинком. Демо.

RelightableAvatar: тоже создание аватаров, но уже с анимацией в нужных позах, сеттинге, и освещении.

Deemos: Rodin Gen-1 стал доступен всем на сайте разработчика. До этого выкатили демку на хаггинге.

IC-Light: моделька для смены освещения теперь в A1111 и Forge.

Krea: добавили апскейлер для видео.

3DitScene: генерим новые виды вокруг объекта.

🎸 ЗВУК 🎸

ElevenLabs: выкатили генератор звуковых эффектов.

Gazelle: опенсорсная модель для общения голосом с нейронкой в реальном времени, а-ля Чо. В демке отвечает только текстом на аудио + текст.

ChatTTS: ещё один генератор речи. VoiceCraft и иже с ним лучше.

🤖 ЧАТЫ 🤖

Colossal: представили опенсорсный инструмент Colossal Inference для ускорения работы больших языковых моделей (LLM).

Hugging Face: произошел инцидент с неавторизованным доступом к спейсам на платформе. Рекомендуют сменить API ключи/токены и перейти на гранулированный уровень контроля.

OpenAI: на бесплатном тарифе ChatGPT теперь доступны: браузер, загрузка файлов, видение, анализ данных, и GPTs.

Anthropic: Claude научился использовать внешние инструменты и API.

Google: в след за Microsoft анонсировали новые Chrome-буки с AI-фичами.

Perplexity: результатами переписки с LLM теперь можно делиться как отдельными веб-страницами.

Nvidia: выпустили NeMo Curator — библиотеку работы с датасетами перед треней. И модель для эмбеддингов NV-Embed-v1.

Falcon Vsion: к этой LLM из Эмиратов прикрутили зрение и сделали визуальную языковую модель (VLM).

Yuan 2.0-M32: новая LLM размером 40В на архитектуре MoE c 32 экспертами и Attention Router для эффективного выбора 2 активных.

Исследования в тренировке/файнтюне LLM:
* DORA — стабилизируем треню и улучшаем умение LLM запоминать
* VeLoRA — эффективное обучение с использованием проекций суб-токенов 1 ранга
* AQLM — сжатие и экономное использование памяти
2 минуты