Найти в Дзене
Дежурный smmщик

Как TikTok читает ваши мысли

В распоряжении обозревателя NYT Бена Смита оказался внутренний документ TikTok, который предлагает новый уровень детализации о том, как работает алгоритм. Рассказываю главное:

Документ TikTok Algo 100 был подготовлен инженерной группой TikTok в Пекине. Пресс-секретарь компании Хилари Маккуэйд подтвердила его подлинность и заявила, что он был написан для того, чтобы объяснить нетехническим сотрудникам, как работает алгоритм.

Многие пользователи, которые потребляют, а не создают контент, говорят, что приложение потрясающе считывает их предпочтения. Согласно официальным данным, алгоритм платформы учитывает такие факторы, как лайки и комментарии, а также информацию о видео, такую как подписи, звуки и хештеги. Ранее WSJ пытался взломать алгоритм и выяснил, что лента TikTok в значительной степени зависит от того, сколько времени вы тратите на просмотр каждого видео, чтобы направлять вас к новым роликам, и этот процесс может иногда заводить молодых зрителей в опасные кроличьи норы.

В документе, оказавшимся в распоряжении NYT, объясняется, что в стремлении к “конечной цели” компании по добавлению ежедневных активных пользователей она решила оптимизировать поток видео, которые она ранжирует, по двум тесно связанным показателям: “удержание” — то есть, вернется ли пользователь — и “затраченное время". Приложение хочет, чтобы вы оставались там как можно дольше. Для аналитиков, которые считают, что алгоритмические рекомендации представляют социальную угрозу, документ подтверждает подозрения.

В документе также говорится, что время просмотра - не единственный фактор, который учитывает TikTok. В документе предлагается приблизительное уравнение оценки видео, в котором прогноз, основанный на машинном обучении, и фактическое поведение пользователя суммируются для каждого из трех параметров данных: лайки, комментарии и время воспроизведения, а также указание на то, что видео просмотрели.

Plike X Vlike + Pcomment X Vcomment + Eplaytime X Vplaytime + Pplay X Vplay

Рекомендательная система присваивает баллы всем видео на основе этого уравнения и показывает пользователям видео с самыми высокими баллами. Для краткости уравнение cильно упрощено. Фактическое используемое уравнение намного сложнее, но логика, лежащая в его основе, та же самая.

В документе также подробно показано, как компания настраивает свою систему для выявления и подавления “наживок” — видеороликов, предназначенных для игры в алгоритм, в которых люди просят поставить лайки, посмотреть предыдущие ролики и т.д.

"У некоторых авторов могут быть некоторые отсылки в видео, и пользователи могут лучше понять эти отсылки, только просмотрев больше видео автора. Таким образом, общая стоимость просмотра пользователем всех этих видео выше, чем сумма просмотров каждого отдельного видео. Другой пример: если пользователю нравится определенный вид видео, но приложение продолжает подталкивать его к одному и тому же контенту, он быстро заскучает и закроет приложение. В этом случае общая ценность, создаваемая пользователем, просматривающим одно и то же видео, ниже, чем при просмотре каждого отдельного видео, потому что повторяемость приводит к скуке”.

Чтобы решить эту проблему, в формулу вводятся новые данные same_author_seen и same_tag_today. Могут также работать и другие решения, такие как принудительные рекомендации пользователей для подачи и рассеивания и т. д. Например, проблема скуки может быть решена с помощью рассеивания.

-2

Другая диаграмма в документе указывает на то, что “монетизация создателя” является одной из целей компании, что предполагает, что TikTok может частично отдавать предпочтение видео, если они прибыльные, а не просто развлекательные.

Джулиан Маколи, профессор компьютерных наук Калифорнийского университета в Сан-Диего, который также ознакомился с документом, сообщил, что в нем не было подробностей о том, как именно TikTok делает свои прогнозы. Преимущество компании, по его словам, заключается в сочетании машинного обучения с “фантастическими объемами данных, высоко вовлеченными пользователями и настройками, в которых пользователи могут использовать рекомендованный алгоритмически контент”

В документе также ясно указывается, что TikTok не сделал ничего, чтобы разорвать свои связи со своей китайской материнской компанией ByteDance, чья собственность стала предметом внимания в конце президентства Дональда Трампа в 2020 году, когда он попытался принудить продать TikTok американской компании. Процесс разработки TikTok, как говорится в документе, тесно переплетен с процессом разработки Douyin. В какой-то момент документ отсылает сотрудников TikTok к "процессу запуска стратегии рекомендаций Douyin" и ссылается на внутренний документ компании, в котором говорится, что это “один и тот же документ для TikTok и Douyin”.

Сотрудники TikTok также глубоко вплетены в экосистему ByteDance. Они используют продукт ByteDance под названием Lark, корпоративную систему внутренних коммуникаций, такую как Slack, но с более агрессивными функциями управления эффективностью, направленными на то, чтобы заставить сотрудников больше использовать систему. Например, есть график, который сообщает сотрудникам, выполняли ли они определенные действия — например, открывали сообщения — чаще или реже, чем их коллеги.