Найти тему
НаучПрим

Машинная нейронная сеть на основе факторизации для прогнозирования CTR

Прогноз частоты щелчков мышью (CTR) является критически важным в рекомендуемой системе, где задача заключается в оценке вероятности того, что пользователь нажмет на рекомендуемый элемент.

Во многих рекомендуемых системах целью является максимизация количества кликов, поэтому товары должны быть ранжированы по оценочной CT. В то время как в других сценариях применения, таких как реклама в Интернете, также важно увеличить доход, чтобы стратегия ранжирования могла быть скорректирована как CTR×bid для всех кандидатов, где «bid» является выгодой для системы, если пользователь щелкнет на товар. В любом случае, очевидно, что ключевым моментом является правильная оценка CTR.

Материал взят с ресурса Яндекс картинки
Материал взят с ресурса Яндекс картинки

Для прогнозирования CTR важно изучить неявные взаимодействия элементов за поведением щелчков мыши пользователя. Проведя исследование на одном из основных рынков приложений, обнаружилось, что люди часто загружают приложения для доставки продуктов питания во время приема пищи, предполагая, что взаимодействие между категорией приложения и меткой времени может быть использовано в качестве сигнала CTR.

Во-вторых, подросткам мужского пола нравятся игры со стрельбой и RPG, а это значит, что взаимодействие категории приложения, пола и возраста пользователя является еще одним сигналом для CTR. В общем, такие взаимодействия функций, лежащих в основе поведения щелчков мышью пользователя, могут быть очень сложными, где важную роль должны играть как низкоуровневые, так и высокоуровневые взаимодействия элементов.

Ключевая задача заключается в эффективном моделировании взаимодействия элементов, которые по некоторым признакам могут быть легко поняты, поэтому они могут быть разработаны экспертами. Однако большинство других особенностей взаимодействия скрыты в данных и их априори трудно идентифицировать, что может быть автоматически зафиксировано только с помощью машинного обучения.

Даже для простых для понимания взаимодействий представляется маловероятным, чтобы эксперты моделировали их исчерпывающе, особенно когда количество элементов велико.

Несмотря на свою простоту, обобщенные линейные модели, такие как FTRL, на практике показали приличные результаты. Однако линейной модели не хватает способности учиться взаимодействию элементов, и общепринятой практикой является ручное включение парных взаимодействий элементов в свой вектор характеристик.

Такой метод трудно обобщить для моделирования взаимодействия элементов высокого порядка или тех, которые никогда или редко не появляются в учебных данных.

Как мощный подход к представлению функций обучения, глубокие нейронные сети имеют возможность для изучения сложных функциональных взаимодействий.

Некоторые идеи расширяют CNN и RNN для подготовки CTR, но модели на основе CNN смещены к взаимодействию между соседними элементами, тогда как модели на основе RNN больше подходят для получения данных кликов с последовательной зависимостью. Исследования характеризуют представления и предлагают факторно-машинную поддержку нейронных сетей (FNN).

Материал взят с ресурса Яндекс картинки
Материал взят с ресурса Яндекс картинки

Эта модель предварительной подготовки FM перед нанесением DNN ограничивается возможностями FM-диапазона. Как отмечалось, PNN и FNN, как и другие глубокие модели, фиксируют малочисленные взаимодействия низкого порядка, которые также необходимы для прогнозирования CTR. Для моделирования взаимодействия нижнего и высокого порядка предлагают интересную гибридную сетевую структуру (Wide & Deep), сочетающую в себе линейную («широкую») модель и глубокую модель. В этой модели для «широкой» и «глубокой» частей, соответственно, требуются два различных входных сигнала, а для «широкой» части все еще требуется опыт проектирования элементов конструкции.

Можно видеть, что существующие модели смещены в сторону низкоуровневого или высокоуровневого взаимодействия элементов, или полагаются на проектирование элементов. В дальнейшем можно вывести модель обучения, которая способна изучать функциональные взаимодействия всех заказов в непрерывном режиме, без каких-либо инженерных разработок, кроме исходных функций. Основные взносы суммируются следующим образом:

  • Предлагают новую модель нейронных сетей DeepFM, которая объединяет архитектуры FM и глубоких нейронных сетей (DNN). Она моделирует низкоуровневые функциональные взаимодействия, такие как FM, и модели высокоуровневых функциональных взаимодействий, таких как DNN. В отличие от широкоугольной модели, DeepFM можно обучать непрерывно, без применения специальных технологий.
  • Обучение DeepFM может быть эффективным, поскольку его части имеют один и тот же вклад, а также вектор встраивания.
  • DeepFM оценивают, как по эталонным данным, так и по коммерческим, что свидетельствует о постоянном улучшении по сравнению с существующими моделями прогнозирования CTR.

Сопутствующая работа

В данной работе предлагается новая глубокая нейронная сеть для прогнозирования CTR. Наиболее смежными областями являются прогнозирование CTR и глубокое изучение рекомендуемой системы.

Прогнозирование CTR играет важную роль в системе рекомендаций. Помимо обобщенных линейных моделей и FM, для прогнозирования CTR предлагается несколько других моделей, таких как модель на основе дерева, модель на основе тензора, машина с вектором поддержки и байесовская модель.

Другой смежной областью является углубленное изучение рекомендуемых систем. В рекомендательных задачах помимо прогнозирования CTR предлагается несколько моделей глубокого изучения. Некоторые специалисты предлагают усовершенствовать совместную фильтрацию посредством углубленного изучения, также создают глубокую обучающую сеть, которая учитывает, как визуальные особенности, так и основную особенность рекламы на дисплеях и разрабатывают двухступенчатую программу углубленного обучения для видеорекомендаций YouTube.

В данной статье была предложена DeepFM, нейронная сеть на основе факторного моделирования для прогнозирования CTR, для преодоления недостатков современных моделей. DeepFM совместно обучает глубокий компонент и FM компонент. Благодаря этим преимуществам достигается повышение производительности.

Эксперименты с двумя реальными наборами данных показывают, что DeepFM превосходит современные модели с точки зрения AUC и Logloss в обоих наборах данных. Эффективность DeepFM сопоставима с наиболее эффективной глубокой моделью в современном состоянии.