Семинар: Дмитрий Забавин - RL-SQL: Решение задачи многорукого бандита методом сэмплирования Томпсона
Многорукий бандит
На одной странице выдачи Яндекса помещается всего 10 результатов. Сколько страниц изучит пользователь, введя запрос? Чаще всего — не больше двух-трёх. И многие полезные сайты он не откроет только потому, что они будут на 5-й, 10-й или 20-й странице. Такие сайты почти не получают трафика из поиска. А главное — им сложно подняться выше. Ведь Яндекс оценивает сайты в том числе по поведенческим факторам — действиям пользователя на странице (времени пребывания, кликам и т.д.). Но если не будет пользователей — нельзя будет оценить поведенческие факторы...
🎰 Многорукие бандиты в Data Science Многорукие бандиты - это интересная и увлекательная концепция, которая находит широкое применение в решении различных задач. В этой статье мы расскажем о многоруких бандитах, о том, как они работают, и о том, как Data Scientist может использовать эти методы для оптимизации результатов. Что такое многорукие бандиты? Многорукие бандиты - это класс алгоритмов, который возник в контексте задачи о распределении ограниченных ресурсов для достижения наилучшего возможного результата. Название "многорукие бандиты" происходит от аналогии с игрой в казино, где игрок стоит перед рядом игровых автоматов с ручками ("руками") и должен выбрать, на какой автомат поставить деньги, чтобы максимизировать свой выигрыш. В контексте Data Science, "руками" могут быть различные варианты или стратегии. Каждая из этих стратегий может давать различные результаты, и цель заключается в том, чтобы найти оптимальную стратегию или комбинацию стратегий, чтобы максимизировать ожидаемый выигрыш. Часто многорукие бандиты применяются в качестве замены А/Б тестирования в рекомендательных системах. Но при провединии таких тестов мы сталкиваемся с главной проблемой бизнеса - упущенная выгода за время проведения А/Б теста (когда используем неэффективный вариант, который показываем группам). Способы оптимизации и максимизации выгоды 1. Epsilon-Greedy. Это простой и эффективный подход, который случайным образом выбирает жадную стратегию с вероятностью «epsilon». Например, если eps=0.02, то алгоритм 98% времени выбирает лучший вариант, а в оставшиеся 2% времени выбирает случайные варианты 2. UCB1. Идея заключается в выборе стратегии, которая максимизирует верхнюю границу доверительного интервала для ожидаемой награды 3. Thompson Sampling. Этот метод использует вероятностный подход, сэмплируя стратегии из их апостериорных распределений и выбирая наилучший вариант. #datascience #recsys #python #machinelearning