Добавить в корзинуПозвонить
Найти в Дзене
GoHa.Ru

VK похвалилась возможностями ИИ Discovery

Компания VK подробно рассказала о внутреннем устройстве своей системы рекомендаций Discovery, которая использует комплекс алгоритмов на базе искусственного интеллекта для глубокого анализа и точного подбора мультимедийного контента. Основу технологии составляет кросс-форматная модель, которая деагностирует видео на составные элементы: изображение, звук, текст и заголовки. Каждый тип данных обрабатывается специализированным энкодером, преобразующим информацию в числовые векторы (эмбеддинги). Затем нейросеть объединяет эти разнородные данные в целостный мультимодальный образ, что позволяет системе глубже понимать содержание и контекст ролика. Отдельное внимание уделено системе распознавания знаменитостей. Алгоритм анализирует ключевые кадры (по одному в секунду), обнаруживает лица и с помощью иерархической кластеризации группирует изображения по людям, учитывая разные ракурсы и условия. Полученные усредненные данные сверяются с базой известных личностей для автоматической идентификации.

Компания VK подробно рассказала о внутреннем устройстве своей системы рекомендаций Discovery, которая использует комплекс алгоритмов на базе искусственного интеллекта для глубокого анализа и точного подбора мультимедийного контента.

Основу технологии составляет кросс-форматная модель, которая деагностирует видео на составные элементы: изображение, звук, текст и заголовки. Каждый тип данных обрабатывается специализированным энкодером, преобразующим информацию в числовые векторы (эмбеддинги). Затем нейросеть объединяет эти разнородные данные в целостный мультимодальный образ, что позволяет системе глубже понимать содержание и контекст ролика.

Отдельное внимание уделено системе распознавания знаменитостей. Алгоритм анализирует ключевые кадры (по одному в секунду), обнаруживает лица и с помощью иерархической кластеризации группирует изображения по людям, учитывая разные ракурсы и условия. Полученные усредненные данные сверяются с базой известных личностей для автоматической идентификации.

Для обработки информации используется мультимодальная языковая модель на основе трансформерной архитектуры. Визуальные и аудиоданные сжимаются с помощью линейного преобразования до компактного размера — всего 16 токенов для видео, что ускоряет анализ без серьезной потери качества. Это позволяет системе за один запрос обрабатывать до 2000 роликов, генерируя их описания, оценивая релевантность, предлагая заголовки и прогнозируя реакцию зрителей.