Всем привет. Я не так давно начал изучать машинное обучение, в частности обучение с подкреплением. Изучил не так уж много, но достаточно, чтобы в моей голове щелкнуло и сложилось два + два. Особенно после того, как ютуб внезапно порекомендовал к просмотру данное видео:
Важно! Дисклеймер!
Я ничего не утверждаю, никого не обвиняю и не имею морального права судить кого-то. Это просто оценочное суждение, не стоит воспринимать его всерьез. Выводы сделанные в этой статье могут быть ошибочными, тем более что я даже не знаю о каком именно машинном обучении в видео идет речь(не смотрел даже), и имеет ли это отношение к какой бы то ни было блогерской платформе. Все написанное ниже создано в порядке бреда.
Введение
Начнем с простого. Что в моем понимании представляет из себя обучение с подкреплением? Это такой вид машинного обучения, где не нужен учитель или какой-то шаблон, машина подстраивается под среду таким образом, чтобы получать максимальную награду от среды. Самостоятельно. В процессе обучения награда может быть как отрицательной, так и положительной, отрицательная очень нежелательна и алгоритм постарается максимально избегать такого, ради того чтобы получить максимальную награду. В зависимости от сложности сия штука сможет делать выбор исходя из долгосрочной перспективы, а не ежесекундной выгоды, но это уже лирическое отступление.
Так вот. Какие основные функциональные моменты такого обучения?
Стратегия
Собственно то, как алгоритм реагирует на разные состояния среды, его поведение. Состояния среды можно представить в виде таблицы/списка с какими-то числами, например список каналов и некий показатель успешности, который по умолчанию равен какому-то числу.
Сигнал вознаграждения
В ответ на действия алгоритма (например показы аудитории на какой-то конктент) среда (какая-нибудь блогерская платформа) дает ответ в виде награды, то есть говорит сколько человек просмотрели рекламу и сколько принесли денег, или сколько ознакомились с контентом.
Функция ценности
Алгоритм исходя из сигнала вознаграждения, обратной связи так сказать, динамически меняет экий-некий показатель "успешности", после чего меняет стратегию относительно этой ячейки таблицы/пункта списка(канала).
Важно отметить, что периодически в стратегию вносится небольшой элемент случайности, а это значит что какие-то случайные каналы будут постоянно терять/прибавлять показы/рекомендации и тд. Без какой-то разумной на то причины. Просто чтобы алгоритм не зацикливался на том, чтобы выдавать больше конкретным успешным каналам и отнимать у неудачных каналов, а значит иногда находить более перспективные проекты, чем уже имеющиеся.
Цель алгоритма
И вроде бы ничего страшного или плохого в вышенаписанном нет, кроме одного. У алгоритма всего одна цель. Одна.
Максимизировать вознаграждение. То есть, в теории алгоритму должно быть плевать на то, насколько глубокие мысли, или насколько проработан материал, или насколько он полезен, или что угодно еще. Если канал дает хорошую обратную связь, то есть — смею предположить хороший доход, то он будет подниматься вверх. Если наоборот, то он будет падать вниз, постоянно, непрерывно. При том, если алгоритм достаточно обучен и сложен, сложно сказать на 100% какой канал будет им продвигаться, потому что он умеет ставить на долгосрочную перспективу и у него в памяти огромный массив данных, которые очень сложно поддаются анализу человеком.
Вот мои выводы из всего этого
1. Если у вас складывается впечатление, что никто в этом мире не понимает что сейчас у какого-нибудь алгоритма на уме, это может быть вовсе не впечатлением, а реальностью. На него возложена одна цель — максимизировать свою награду, и сложная постоянно изменяющаяся стратегия с элементами случайности.
2. Платформу в первую очередь определяют не творческие способности отдельных блогеров, а интересы и настроения людей.
3. Подражание — рабочая тема, подражая популярным людям на платформе вы будете иметь больше шансов на успех. У алгоритма нет задачи оценивать вашу креативность, грамотную речь и тд. Главное — максимизация награды. Но надо быть осторожным, потому что элемент случайности в алгоритме все таки есть и сегодняшний фаворит может при стечении правильных обстоятельств улететь в низ.
4. Если вы уже не вписались и настроения аудитория не меняются — скорее всего вам ничего не поможет. Никакое упорство, труд и тд. Только если вы начнете подражать популярным или случится какое-то чудо.
Опять дисклеймер
Все это просто шутка. Я не имею ввиду какую-то конкретную платформу, это просто размышления на тему того, как может быть использовано машинное обучение в работе с контентом и что из этого выйдет. Я не являюсь каким-то ученым, статистом и тд. Информация описанная выше не несет никакого рекомендательного, познавательного или какого-либо другого характера и не связана с объективной реальностью. Все совпадения случайны, все персонажи выдуманы.