Psy Eyes | Дзен

Ну и закончим на сегодня со сплатами вот на такой ноте

KIRI разрабатывают возможность снимать 4D контент камерой одного смартфона, без использования дорогостоящего рига из десятков камер. Это хорошо. А параллельно будет развиваться полностью синтетический вектор, где камеры вообще не нужны: генерация сцены со всех возможных пролётов и потом получение из неё интерактивного 4D...

2 часа назад

PlayCanvas: обновили движок PlayCanvas Engine и добавили в конвертер поддержку сжатого формата LCC2 для стрима сплатов

До этого они внедрили генератор коллизий, чтобы загружающие могли их быстро сгенерить, и по сплатам можно было свободно ходить, не проваливаясь. Апдейт включает в себя новый высоко-производительный WebGPU обработчик и LOD для стрима сцен в высоком качестве как на десктопе, так и на мобилках. Вместо сортировки сплатов в рабочем потоке (worker thread), новый WebGPU обработчик перекладывает всю тяжелую работу на вычислительные шейдеры (compute shaders) — они отсекают невидимые сплаты, проецируют оставшиеся и сортируют их с помощью быстрой поразрядной сортировки (radix sort) на GPU...

2 часа назад

Suno: улучшили разделение трека на стэмы

Теперь есть три режима: Autosplit (предыдущая версия), Split from mix, и новый Advanced split. Старый Autosplit вытаскивал стэмы по разнице частот и периодически ошибался, или с вокруг инструмента слышался шум. Новый Advanced split вместо изолирования частот генерит его по новой с чистым звуком, используя последнюю актуальную модель (на данный момент V5.5). Судя по демкам новая генерация хорошо следует структуре оригинального стэма. Как это работает с голосом не показали. Крайне гранулированные стэмы а-ля Kick, Snare, итд доступны в бета режиме и требуют доработки...

12 часов назад

LTX: обновили LTX Trainer для тренировки лор/файнтюна на основе видеогенератора LTXV

Фреймворк сочетает в себе 10+ режимов для создания лор по видео и аудио: t2v, i2v, расширение длительности видео и аудио, инпейтинг и аутпейнтинг, audio-to-video, video-to-audio (Foley), text-to-audio, и IC-лоры. Базовые лоры выложены на хаггинге. Есть документация с инструкциями по созданию датасетов, оптимизиции пайплана для эффективного использования памяти, и примеры конфигов...

1 день назад

Ideogram: выпустили генератор картинок Ideogram 4, но в этот раз релиз двойной: помимо основной модели на сайте, они впервые выложили веса в

опенсорс. Модель нативно выдаёт изображения разрешением 2К, отлично справляется с рендером текста в разных стилях и на разных языках, понимает контроль кадра с помощью цветовой палитры и выделения рамкой. В FP8 демке есть улучшайзер промта на выбор серверами Ideogram, или локально с помощью Qwen. Выложены веса в FP8 и NFP4 вариантах, FP16 похоже не предвидится...

2 недели назад

Runway: убирают безлимитный тариф Unlimited и ставят вместо него за ту же цену ($95/мес) тариф Max

В нем не будет режима Explore для безлимитной генерации видео и картинок в рамках подписки. Вместо 2250 кредитов в месяц даётся 9500, чего хватит на 15 FullHD видео Seedance 2 длиной 15 сек (цены). Неиспользованные кредиты переносятся на 1 следующий месяц, а дальше сгорают. Для тех, кто уже на анлиме всё останется как есть до 31 августа...

2 недели назад

ElevenLabs: выпустили генератор музыки Music V2

Улучшена проработка инструментов, вокала на разных языках, и аранжировки во всех жанрах. Модель справляется с изменениями жанра посреди композиции: от оперы к металлу, итд. С помощью инпейнта можно заменить слова или инструмент без влияния на остальные части трека. Можно использовать аудио референсы для развития своих наработок. Если это что-то чужое, может сработать цензура. Music V2 уже заехала в недавно представленный стриминг ElevenMusic и аудио-маркетплейс для ElevenCreative...

3 недели назад

Nvidia: представила PiD (Pixel Diffusion Decoder), декодер на основе диффузии пикселей

В большинстве t2i моделей генерация осуществляется в сжатом латентном пространстве, а декодер (VAE) разворачивает полученное в пиксели в нужном разрешении. Однако такой декодер ориентирован на реконструкцию без генерации дополнительных деталей, и с увеличением целевого разрешения картинки значительно растут и требования к компьюту. PiD напрямую декодирует латенты в пиксельные изображения высокого разрешения, объединяя декод и апсемплинг в единый модуль. Это позволяет получить чёткие 2048×2048 или 4096х4096 картинки за несколько шагов...

3 недели назад

Взглянем какие AI-фичи Паша запряг в телегу в последних обновлениях, и что появилось в TON

Telegram * Выжимка длинных постов с бэкендом на Cocoon. На удивление работает хорошо, сохраняя смысл оригинала. * AI-редактор, который может переводить текст, проверять его на ошибки и изменять. Правда внутри него нельзя делать правки, так что толку от него пока мало. * Также в AI-редакторе можно применять стили к написанному, или создавать свои стили и делиться ими. Опять же, пользы от этого вижу мало, но то, что редактор открывается в отдельном окне — это хорошо. Было бы здорово, если бы его прицепили к обычному редактированию поста с контентом и дали переключаться в фулскрин...

3 недели назад

Чтоб Алеф не расслаблялся, опенсорс в лице лор на LTXV 2.3 держит его на контроле

Пара наблюдений из твиттера от человека, тренирующего IC (In-Context) лоры на LTXV: - Качество обучающих данных важнее их количества. Даже с относительно небольшими наборами данных (10–15 пар) можно добиться отличных результатов, если данные качественные, а желаемый эффект четко сформулирован. - first_frame_conditioning — ключевой параметр. Более высокие значения способствуют замене каждого пикселя, а более низкие — игнорированию референсных изображений. Однако использование вместе с лорами на стиль может улучшить результат...

3 недели назад

Runway: выпустили Aleph 2, обновлённый инструмент для редактирования видео

Первый Aleph вышел около года назад. Можно внести правки в конкретный кадр и изменения будут применены ко всему видео. Работает даже в мультишот сценах, например, из Seedance 2. Правки могут применяться как в целом ко всему фрейму, скажем для смены стиля, так и точечно к объектам вроде куртки на модели, лампы в углу кадра, итд. Замена объекта будет произведена с учетом его физики и освещения сцены, при этом бэкграунд останется максимально нетронутым. Aleph 2 работает с видео разрешением 1080p и длиной до 30 сек. Им можно воспользоваться...

4 недели назад

На страже порядка

Паша добавь возможность блокировать подачу заявок на вступление в чат. С какими-то ботами постоянные отклонения заявок работают, а с какими-то нет. Ещё помогает блок этих ботов в подписках канала, ибо часто они сначала цепляются к каналу, а потом лезут в чат. Надо будет попробовать блок по ID аккаунта через Grpoup Help, или что-то ещё. А вообще нужны превентивные меры, делающие эту спамерскую модель непрофитной. Сейчас бот просто подаёт заявку в чат или ставит реакцию, привлекая к себе внимание, и мне это видится не сильно затратным...

1 месяц назад

40:30