Найти тему
Технопарк

Pinterest об ИИ и системах таксономии, лежащих в основе трендов (часть 1)

Оглавление

В декабре прошлого года компания "Pinterest" объявила о запуске функции Pinterest Trends, которая раскрывает самые популярные ключевые слова поиска за прошедший год. Так же, как и Google Trends и инструмент поиска ключевых слов Бинга, "Тренды" освещают термины, достигшие пика за последние 12 месяцев, используя алгоритмические данные для сортировки по объему.

Тенденции стали доступны во всем мире на этой неделе в бета-версии, и в духе прозрачности, Pinterest подробно рассказал, как таксономическая система, лежащая в основе "Trends", отображает более 200 миллиардов идей на 4 миллиардах досок, созданных более чем 320 миллионами пользователей социальной сети. "Поскольку люди приходят в Pinterest, чтобы планировать, у нас есть уникальное понимание новых тенденций", - пишут Сонг Цуй и Дхананджай Шрути, инженеры-программисты из команды Content Knowledge. "Мы можем собрать эти знания, потому что Pinterest - это принципиально другой вид платформы, куда ... люди со всего мира приходят, чтобы сохранить идеи и спланировать".

https://www.pinterest.ru/pin/688698967998784688/
https://www.pinterest.ru/pin/688698967998784688/

Таксономия

Pinterest использует таксономическую систему управления знаниями, которая обеспечивает понимание на уровне содержания, согласно Cui и Shrouty. Она классифицирует каждый объект и определяет взаимоотношения между ними с целью повышения точности моделей ИИ на платформе, задействованной в задачах поиска и классификации.

Таксономия - поддерживающая 17 языков для 20 стран, с перспективой расширения - организует популярные темы по всей платформе и курирует интересы и узлы (Pins) для рекламы и текущих кампаний. Интересы сгруппированы в иерархическую структуру "родитель-ребенок", где каждый ребенок является подклассом одного родителя, а узлы таксономии верхнего уровня определяют широкие вертикали - например, "Женская мода" и "Сделай сам" и "Ремесла" - которые отражают общие интересы, связанные с булавками. (Детские узлы до 11 уровней отражают более детальные темы).

Таксономия "Pinterest" нацелена на охват наиболее важных и своевременных тем из содержания "Pinterest", - пояснили Кюи и Шрути. "Активные темы, используемые в различных продуктах, такие как тематические корзины и покупки, охватываются нашей таксономией... Эти термины извлекаются из популярных аннотаций, используемых в Pinterest, названий досок и топовых поисковых запросов".

В этом отношении система построена на основе существующей работы Pinterest с PinSage, конволюционной графической сетью, содержащей более 3 миллиардов узлов и 18 миллиардов ребер, которые могут узнать о таких вещах, как близлежащие Pins в веб-масштабе графов. Pinterest начал использовать PinSage для рекламных рекомендаций в феврале 2018 г. и в более широком смысле для таких вещей, как рекомендации по покупкам, в июне, и в то время он утверждал, что это вызвало 25%-ый рост впечатлений для Shop the Look (функция, которая позволяет пользователям Pinterest покупать одежду, показанную на Pins) и 46%-ый прирост производительности по сравнению с традиционными методами случайной выборки графов.

Классификация контента

Таксономия не принесла бы большой пользы, если бы не было механизма картирования булавки к названной таксономии. Вот почему команда контент-инженеров создала Pin2Interest (P2I), систему классификации контента, которая проглатывает вложения, текстовые и визуальные входы, а также названия досок для создания персонализированных рекомендаций и функций ранжирования для других моделей ИИ. В настоящее время она используется в производстве для ранжирования Pin2Interest на домашних лентах пользователей и для таргетинга рекламы.

P2I настраивает методы обработки естественного языка, такие как лексическое расширение (создание новых лексических единиц и шаблонов) и встраивание сходства, чтобы отобразить входы изображений в список узлов в качестве кандидатов на предсказание. Затем он использует модель релевантности поиска для предсказания и ранжирования соответствия между вышеупомянутыми изображениями и узлами. Пинтерест говорит, что более 99% изображений можно отобразить хотя бы в одном узле.

Cui и Shrouty отмечают, что информация о таксономической иерархии также используется в качестве информации о ранжировании P2I. В паре с таксономией она позволяет отслеживать количество изображений на каждый узел и, как следствие, тенденцию развития темы по всему Pinterest. "Детализация и качество таксономии имеют решающее значение для точности P2I", - пишут они. "Если содержание изображения принадлежит очень определенной теме, а таксономия не имеет аналогичного узла для охвата этой темы, P2I сопоставит это изображение с узлом с другим контекстом и точность прогнозирования снизится".

Больше информации об инновациях Pinterest - во второй части статьи...