Найти в Дзене
У Heygen теперь новый Video Agent
Даёшь краткое описание что ты хочешь чтобы аватар произнёс в кадре и как он должен выглядеть. Агент на несколько минут уйдёт в рассуждения и вернётся с планом действий. Если всё ок, жмёшь утвердить и видео начнёт генериться. Через несколько минут получаешь видео длиной 12-20 сек, где аватар произносит и делает в кадре то, что ты попросил. Если нужны правки (надпись, поза, освещение, итд) можно их сделать там же в рамках чата. Мне надо было поменять произнесённый текст с Psy Yes на Psy Eyes и всё получилось, хотя голос при этом стал другим...
4 дня назад
Nvidia: выпустили проект PPISP для улучшения детализации сплат сцен
В отличие от других подходов здесь для генерации новых углов обзора по фоткам тренируется отдельная модель, связанная с параметрами камеры из EXIF (экспозиция, баланс белого, итд). Это позволяет отделить эффекты формирования изображения камерой от самой сцены, что приводит к более качественным и реалистичным результатам...
5 дней назад
Luma: выпустили видеогенератор Ray3.14 (как Rape Me у Nirvana только "рэйпи
"). Что нового: * Нативное 1080p (я думал оно у них уже было) * 720p генерит в 4 раза быстрее и в 3 раза дешевле * Улучшения в стабильности, детализации видео, и следованию промту * Работает с текстом, картинками и видосами на входе * Изменение объектов на видео длиной до 18 сек На бесплатном тарифе можно в режиме драфта погенерить. Правда неизвестно сколько времени это займёт...
5 дней назад
Comfy: в своём облаке увеличили количество контента, которое можно сгенерить за ту же цену подписки
Я правда не пойму как они считают ибо цифры из поста не бьются с указанными на их сайте. Там ещё и если нажать на детали, то выясниться что время для генерации прикинуто из расчёта, что мы будем генерить 640х640, 16 fps, 4-шаговой лорой... а будет не так. Но учитывая, что в большинстве случаев новые модели стартуют с ворками для Comfy, API ноды быстро добавляются, есть импорт моделей с Hugging Face и CivitAI, а гоняется...
5 дней назад
3D контроль камеры для Qwen Image Edit 2511
До этого в демо была 2509 версия. Мультикам лору натренировали Fal, она на хаггинге. Comfy воркфлоу у них на гитхабе для шаблонов. Ноду можно поставить через менеджер когда импортируете воркфлоу или с гитхаба. Если будет ругаться на каналы ставьте не nightly версию ноды а какую-нибудь из номерных стабильных под ней...
5 дней назад
Invoke с октября как-то не выпускали обновлений и пропали с радаров
Оказалось их купил Adobe и команда Invoke перешла к ним, закрыв коммерческую часть проекта и твиттер аккаунт. Однако опенсорсная часть выжила под названием Community Edition и на гитхабе мейнтейнеры те же. Это значит, что проект продолжит развиваться, но обновления будут выходить реже. И вот впервые за долгое время появился апдейт. В нём...
6 дней назад
Tencent: выпустили мультимодальный генератор картинок Хуньянь Image 3 Instruct
В отличие от базовой версии выпущенной ранее, Instruct сфокусирован на редактировании картинки текстом и генерации изображений на основе нескольких рефов. Наличие CoT рассуждений перед генерацией помогает улучшить итоговые результаты. Модель огромная — 80B MoE из которых 13B активных, так что это облачное решение. Но можно залогиниться у них на сайте переключившись на английский и погонять пока не упрёмся в лимиты...
6 дней назад
Eleven Labs: выпустили Scribe 2 Realtime для генерации текста из речи
Модель заточена работать в реальном времени на 90 языках, и подходит для агентов с голосовым режимом, получения субтитров, перевода, итд. Но фокус на агентах. В отличие от предыдущей модели в линейке Scribe 2 Realtime лучше справляется с паузами, дыханиями, и шумами присущими человеческой речи. Уже завезли в API...
3 недели назад
Meshy: вытащили из превью V6 своего 3D-генератора
Что нового: * Более плавная, анатомически-корректная геометрия персонажей и органических моделей; * Более чистая общая структура механических и геометрических моделей, а также повышенная точность краёв. * Low Poly режим для разработчиков игр в таком стиле Просто из картинки с котом в полный рост генерить меш в Т-позе на бесплатном тарифе не даёт, а если вкинуть как есть, то руки будут "прилипшими" к брюкам. В Qwen IE побырику сгенерил варик в T-позе и скинул в Meshy. Генерит довольно шустро (1-2 мин). На выходе из одной картинки довольно детальный меш в 300к+ полигонов. Подать на вход сразу несколько...
3 недели назад
С наступающим Новым Годом, котаны
! За 2025 стало нормой редактирование картинок и видео текстом/рефами, использование AI-агентов для автоматизации пайплайнов, создание годных 3D моделей (где-то даже с сегментацией). Не говоря уже о том, что качество видео местами стало неотличимым от реальности. В тоже время дефицит железа для компьюта становится острее, а облака то и дело падают, не справляясь с нагрузкой. Поэтому можно ожидать сильных оптимизаций под актуальное и старое железо, больше пользы от встройки (iGPU), больше проектов...
1 месяц назад
Тем временем Нолан выпустил трейлер своей Одиссеи, которая выйдет летом
и тут же на следующий день вышла AI-переделка, но с доспехами бронзового века по музейным фоткам реальных экспонатов, арт-рефам, и описаниям из той эры. Кстати вот вам раз и два видео для ознакомления с историей. Если обычно в твиттере и комментах ютуба многие бурлят про AI, то тут в целом народ поприветствовал такое решение как более близкое к истории. Причём доспехи хорошо сидят на персонажах, картинка стабильная и артефакты не бросаются в глаза (но тут и движения мало), а лицо Мэтта Деймона всё также узнаваемо там, где оно не перекрывается доспехами...
1 месяц назад