90 подписчиков

Дайджест

4 мая 20254 мая 2025

3 мин

Дайджест: 📹 ВИДЕО + АРТ 🎨 Wan: Kijai наваял веса и comfy воркфлоу для контроля камеры от Wan Fun. А также для аниматора персонажей FantasyTalking (веса // воркфлоу). Bytedance: обновили онлайн демо группового персонализатора фото ID-Patch. Comfy: портативная сборка теперь включает в себя CUDA 12.8, появился отдельный скрипт для запуска в fast fp16 режиме, добавлена экспериментальная оптимизация --async-offload, и улучшена работа с памятью у VACE. Также добавилась поддержка редактора картинок текстом HiDream-E1. Zluda: в CUDA для видюх AMD добавилась поддержка ONNX Runtime, COLMAP, и другого. EdgeTAM: сегментация объектов на видео, включая динамичные сцены. Маска выделяется по клику. OpenMuse: платформа для расшаривания лор на видеомодели. Pika: добавили эффект для смены причёски. Kling: добавили эффект Instant Film (полароид). Neurogen: сделал сборку дипфейкера FaceFusion V 3.2. Из нового: TensorRT 10.9, модель xseg для маски лица, переключение с CUDA на DirectML. Krea: ор

Дайджест:

📹 ВИДЕО + АРТ 🎨

Wan: Kijai наваял веса и comfy воркфлоу для контроля камеры от Wan Fun. А также для аниматора персонажей FantasyTalking (веса // воркфлоу).

Bytedance: обновили онлайн демо группового персонализатора фото ID-Patch.

Comfy: портативная сборка теперь включает в себя CUDA 12.8, появился отдельный скрипт для запуска в fast fp16 режиме, добавлена экспериментальная оптимизация --async-offload, и улучшена работа с памятью у VACE. Также добавилась поддержка редактора картинок текстом HiDream-E1.

Zluda: в CUDA для видюх AMD добавилась поддержка ONNX Runtime, COLMAP, и другого.

EdgeTAM: сегментация объектов на видео, включая динамичные сцены. Маска выделяется по клику.

OpenMuse: платформа для расшаривания лор на видеомодели.

Pika: добавили эффект для смены причёски.

Kling: добавили эффект Instant Film (полароид).

Neurogen: сделал сборку дипфейкера FaceFusion V 3.2. Из нового: TensorRT 10.9, модель xseg для маски лица, переключение с CUDA на DirectML.

Krea: организовали возможность собирать композицию из объектов на холсте с простыми указаниями. Также добавили пресеты ChatGPT для быстрого стайлтрансфера. И пришили бесплатный апскейлер.

Google: добавили генератор видео Veo 2 в мобильную апу Gemini App.

🎸 ЗВУК 🎸

Suno: завезли V4.5 в мобильную апу, и оттуда теперь можно публиковать треки.

Riffusion: генератор музыки добавил негативные промты, чтобы задать чего не хочется слышать в треке. И теперь можно одновременно использовать до 4 аудио рефов и даже смешивать их с индивидуальными настройками времени и силы. Плюс запустили конкурс для авторов.

Heygen: аватары теперь могут имитировать тон и мимику человека на реф видео... Как-то так себе это выглядит.

Google: обновили Music AI Sandbox, инструментарий для генерации музыки, и добавили модель Lyria 2. Можно редактировать отдельные элементы трека, смешивать жанры, и не только. Также NotebookLM теперь работает на русском.

lmms: выпустили небольшую модель Aero-1-Audio размером 1.5 для распознавания речи, понимания аудио, чату по нему, и анализу звука. Принимает на вход до 16 минут.

SST: реалтайм перевод речи с французского на английский. Напоминает Hibiki.

🤖 ЧАТЫ 🤖

Ollama: добавлена поддержка Qwen 3, Phi 4 (mini) reasoning, а также ламы 4.

JetBrains: выпустили в опенсорс модель для авто-завершения кода Mellum 4B. Натренирована с нуля на коде облачной платформы JetBrains.

Gradio: организовали способ превращать Gradio демки в MCP сервера.

HuggingFace: проапгрейдили ZeroGPU. Теперь AI-приложения, которые запускаются в этом режиме имеют под капотом H200 с 70 ГБ VRAM и 2.5x петафлопс.

DeepSeek: выпустили ллм DeepSeek Prover V2 для доказательства теорем. Размеры от 7B влезет в 12ГБ VRAM до 671B (не влезет в 24 ГБ).

Qwen: релизнули Qwen2.5-Omni-3B, мультимодальную модель, берущую на вход текст/картинки/видео/аудио и способную отвечать текстом или голосом. Влезет в 8ГБ VRAM или меньше. Также с крупной Qwen3 235B теперь можно бесплатно пообщаться в HuggingChat.

Google: представили для США режим поиска AI Mode, делающий выжимку поиска для пользователя.

Nvidia: выпустила Eagle 2, визуальную языковую модель (VLM) для чата по картинкам и видео. Размеры от 1B до 9B, контекст везде 16К.

Grok: теперь может упаковывать свои исследования в PDF файлы.

Anthropic: представили Integrations для связи Claude со сторонними апами. До этого момента поддержка MCP была ограничена десктопной апой. Integrations позволяет Клоду беспрепятственно работать с удаленными MCP через веб и десктоп прилы. Ещё Claude теперь может ресерчить 45 минут.

OpenAI: обновили поиск в ChatGPT для улучшения работы с шопингом.

————————————————————

🔥 Создай своего цифрового двойника, оживи персонажа, или интегрируй бренд. Напиши — @AndreyBezryadin