Компания VK подробно рассказала о внутреннем устройстве своей системы рекомендаций Discovery, которая использует комплекс алгоритмов на базе искусственного интеллекта для глубокого анализа и точного подбора мультимедийного контента. Основу технологии составляет кросс-форматная модель, которая деагностирует видео на составные элементы: изображение, звук, текст и заголовки. Каждый тип данных обрабатывается специализированным энкодером, преобразующим информацию в числовые векторы (эмбеддинги). Затем нейросеть объединяет эти разнородные данные в целостный мультимодальный образ, что позволяет системе глубже понимать содержание и контекст ролика. Отдельное внимание уделено системе распознавания знаменитостей. Алгоритм анализирует ключевые кадры (по одному в секунду), обнаруживает лица и с помощью иерархической кластеризации группирует изображения по людям, учитывая разные ракурсы и условия. Полученные усредненные данные сверяются с базой известных личностей для автоматической идентификации.