Найти в Дзене
DigiNews

Гонконгский университет и Kuaishou Kling представили MemFlow для решения проблем с памятью при создании длинных видеороликов с

использованием искусственного интеллекта. Исследователи из Университета Гонконга и команда Kling компании Kuaishou совместно представили MemFlow, новый подход, разработанный для решения давних проблем потери памяти и несогласованности повествования в длинных видео, сгенерированных искусственным интеллектом. MemFlow представляет собой динамический, адаптивный механизм долговременной памяти, значительно улучшающий связность повествования и визуальную согласованность в расширенных видеопоследовательностях. Традиционные методы часто полагаются на жесткие стратегии памяти, что приводит к дрейфу идентичности или путанице персонажей с течением времени. Решение включает в себя два основных компонента: Narrative-Adaptive Memory (NAM), который извлекает наиболее релевантный исторический визуальный контекст на основе текущего запроса, и Sparse Memory Activation (SMA), который выборочно активирует ключевую информацию для поддержания вычислительной эффективности. В эталонных тестах MemFlow дости

Гонконгский университет и Kuaishou Kling представили MemFlow для решения проблем с памятью при создании длинных видеороликов с использованием искусственного интеллекта.

Исследователи из Университета Гонконга и команда Kling компании Kuaishou совместно представили MemFlow, новый подход, разработанный для решения давних проблем потери памяти и несогласованности повествования в длинных видео, сгенерированных искусственным интеллектом.

MemFlow представляет собой динамический, адаптивный механизм долговременной памяти, значительно улучшающий связность повествования и визуальную согласованность в расширенных видеопоследовательностях. Традиционные методы часто полагаются на жесткие стратегии памяти, что приводит к дрейфу идентичности или путанице персонажей с течением времени.

Решение включает в себя два основных компонента: Narrative-Adaptive Memory (NAM), который извлекает наиболее релевантный исторический визуальный контекст на основе текущего запроса, и Sparse Memory Activation (SMA), который выборочно активирует ключевую информацию для поддержания вычислительной эффективности.

В эталонных тестах MemFlow достиг общего балла качества VBench-Long 85.02 и эстетического балла 61.07, сохраняя при этом стабильную долгосрочную семантическую согласованность. Согласованность субъектов достигла 96.60, а вывод в реальном времени достиг 18.7 FPS на одном графическом процессоре NVIDIA H100, что подчеркивает как повышение качества, так и эффективности.

Источник: liangziwei

(\*) Имейте ввиду: редакции некоторых изданий могут придерживаться предвзятых взглядов в освящении новостей.

8/8

https://dgnews.ru/gonkongskij-universitet-i-kuaishou-kling-predstavili-memflow-dlya-resheniya-problem-s-pamyatyu-pri-sozdanii-dlinnyh-videorolikov-s-ispolzovaniem-iskusstvennogo-intellekta/