663 подписчика

МГУ запускает продвинутый датасет для оценки экранного видео

21 мая21 мая

4 мин

В Центре искусственного интеллекта МГУ разработан новый специализированный набор данных, призванный повысить объективность оценки качества экранного видеоконтента для видеоконференций. Эта инициатива стала значимым шагом в понимании специфики передачи экранных изображений — таких как презентации, таблицы, фрагменты программного кода и интерфейсы — в условиях современных цифровых коммуникаций. В последнее время возросла роль таких форматов в онлайн-обучении, дистанционной работе и коллаборации на расстоянии, что делает задачу их качественной передачи как никогда актуальной. Экранный видеоконтент отличается характерными чертами: четкими переходами, небольшим текстом, большими статичными зонами и графическими элементами. Большинство распространенных метрик для оценки качества видео создавались с акцентом на видеоряд с естественными сценами, где основное внимание уделяется плавности движений, цветопередаче и деталям живой картинки. Именно поэтому точность таких метрик значительно падает пр

Оглавление

Особенности экранного видеоконтента и задачи оценки
Состав и сбор уникального набора данных
Уникальная система субъективной оценки

Особенности экранного видеоконтента и задачи оценки

Экранный видеоконтент отличается характерными чертами: четкими переходами, небольшим текстом, большими статичными зонами и графическими элементами. Большинство распространенных метрик для оценки качества видео создавались с акцентом на видеоряд с естественными сценами, где основное внимание уделяется плавности движений, цветопередаче и деталям живой картинки. Именно поэтому точность таких метрик значительно падает при работе с экранным контентом, что мешает объективному анализу новых способов передачи информации.

Состав и сбор уникального набора данных

Новый датасет, подготовленный совместными усилиями сотрудников центра и факультета ВМК МГУ, содержит 100 оригинальных видеоряда экранного типа и 1600 версий с намеренно внесенными искажениями. Важнейшее отличие — создание искаженных файлов в максимально приближённых к реальности условиях: видео транслировалось через различные сервисы видеоконференций с имитацией ограниченной пропускной полосы и потерями пакетов, применялись разные видеокодеки. В результате пользователи столкнулись с дефектами, наиболее типичными для реальных коммуникаций: пропусками кадров, искажениями сжатия, нестабильностью отображения и временной рассинхронизацией.

При формировании набора особое внимание уделялось точному выравниванию кадров оригиналов и искаженных копий. Это позволило корректно применять лабораторные и промышленные метрики, даже при наличии серьезных потерь данных или измененной последовательности видеокадров, что сближает экспериментальные условия с настоящими вызовами современного интернет-общения.

Уникальная система субъективной оценки

Для получения результатов, максимально близких к пользовательскому восприятию, была проведена масштабная краудсорсинговая кампания. В ней поучаствовали свыше 8000 добровольных участников, выполнивших более 120 000 парных сравнений видеороликов. Итоговые показатели были рассчитаны на основе авторитетной модели Брэдли-Терри, что гарантирует высокую надежность данных и позволяет использовать их как эталон для будущих исследований в области оценки качества цифрового контента.

Преимущества нового подхода

Главной задачей проекта стало создание набора данных, максимально приближенного к условиям реального взаимодействия при обмене экранным видео через современные сервисы. Благодаря этому теперь возможно не только тестировать существующие метрики оценки качества, но и разрабатывать новые алгоритмы с учетом специфики цифровых конференций, сетевых ограничений и пользовательских потребностей. Такой подход открывает новые перспективы для сравнения возможностей популярных платформ видеоконференцсвязи и оперативного обнаружения их сильных и слабых сторон в демонстрации материалов.

В долгосрочной перспективе исследователи планируют сформировать всесторонний рейтинг систем видеосвязи по качеству отображения экранного контента, что станет серьёзной поддержкой для организаций, выбирающих оптимальные инструменты для удаленной работы и онлайн-обучения, а также стимулирует производителей ПО к последующим улучшениям своих сервисов.

Дальнейшее развитие исследований

Проведённый анализ показал, что многие существующие алгоритмы, успешно справляющиеся с видео естественных сцен, демонстрируют крайне низкую корреляцию между объективными метриками и субъективными оценками, когда дело касается экранного видеоконтента. Это доказывает наличие существенного разрыва между этими двумя доменами и мотивирует к локализации и совершенствованию моделей под конкретные задачи видеоконференций, дистанционного образования и корпоративного обмена информацией.

Разработанный датасет окажет серьезное влияние на скорость и качество разработки новых методов оценки и оптимизации потокового видео. Итоговые материалы открыты для дальнейшей научной и коммерческой работы, что позволит ускорить внедрение передовых алгоритмов на рынок IT и онлайн-коммуникаций.

Перспективы и влияние на современное общество

Улучшение качества экранного видеоконтента способствует не только росту эффективности удаленной работы, но и расширяет доступ к современным образовательным и корпоративным возможностям в любой точке мира. Новые стандарты диагностики и повышения качества трансляций станут залогом комфортной работы сотен миллионов пользователей, повысив уровень доверия и конкурентоспособности отечественных цифровых платформ.

Достижения коллектива способствуют укреплению позиций МГУ и Центра ИИ как ведущих научных площадок по развитию искусственного интеллекта и цифровой трансформации. Реализация подобных проектов мотивирует молодое поколение ученых на дальнейшее самосовершенствование и внедрение новых технических решений в повседневную жизнь общества.

Информация предоставлена пресс-службой МГУ.

Источник фото: rawpixel / ru.123rf.com

Источник: scientificrussia.ru