16 подписчиков

Как устроены алгоритмы Reels: Как правильно создать видео для Reels

3 дня назад3 дня назад

13 мин

* Признана экстремистской организацией и запрещена в РФ

** Facebook принадлежит компании Meta, признанной экстремистской организацией и запрещенной в РФ

*** Instagram принадлежит компании Meta, признанной экстремистской организацией и запрещенной в РФ Тебе в руки попал чрезвычайно полезный материал – это технический анализ алгоритмов Instagram*, основанный на публикациях блога Engineering at Meta*, заметок AI Research Meta, научных публикаций и патентов инженерной команды Meta и Instagram*. Этот документ основан только на фактах того, что из себя представляют системы машинного обучения, которые стоят в основе обработки контента в Instagram*. Нельзяграм сегодня — это не просто приложение для фото и видео. Это огромная технологическая экосистема, где каждый экран, кнопка и лента работают на базе десятков алгоритмов машинного обучения, всего их более тысячи. Главная лента, Reels, Explore — все это управляется ML-системами, которые в реальном времени решают, что именно показать каждому пол

* Признана экстремистской организацией и запрещена в РФ

** Facebook принадлежит компании Meta, признанной экстремистской организацией и запрещенной в РФ

Оглавление

Как устроен Нельзяграм*
Что происходит с видео после загрузки
Как видео попадают тебе в ленту

* Признана экстремистской организацией и запрещена в РФ
** Facebook принадлежит компании Meta, признанной экстремистской организацией и запрещенной в РФ
*** Instagram принадлежит компании Meta, признанной экстремистской организацией и запрещенной в РФ

Тебе в руки попал чрезвычайно полезный материал – это технический анализ алгоритмов Instagram*, основанный на публикациях блога Engineering at Meta*, заметок AI Research Meta, научных публикаций и патентов инженерной команды Meta и Instagram*. Этот документ основан только на фактах того, что из себя представляют системы машинного обучения, которые стоят в основе обработки контента в Instagram*.

Как устроен Нельзяграм*

Нельзяграм сегодня — это не просто приложение для фото и видео. Это огромная технологическая экосистема, где каждый экран, кнопка и лента работают на базе десятков алгоритмов машинного обучения, всего их более тысячи. Главная лента, Reels, Explore — все это управляется ML-системами, которые в реальном времени решают, что именно показать каждому пользователю.

Что происходит с видео после загрузки

Когда вы загружаете видео, контент переводится в векторное представление, причем частично это происходит прямо на устройстве (если мощность позволяет). Ролик раскладывается на сотни признаков: длительность, динамика, цвет, объекты, лица, музыка, отдельные звуки, текст, даже шрифт текста. За все это отвечают CV (Computer Vision), OCR (Optical Character Recognition) и аудио модели.

— CV-модели, такие как Detectron2, распознают, кто и что в кадре: люди, предметы, сцены, даже эмоции— Аудио-модели слушают музыку, речь, даже выделяют трендовые звуки— OCR-система, основанная на технологии Rosetta читает текст прямо из видео, фиксирует совпадение текста и контекста В итоге, у каждого ролика появляется гигантская карта параметров – цифровое описание того, что именно в нем

У автора контента есть «рейтинг», author score. Сет отдельных ML-систем скорит автора: частота публикаций, насколько его контенту держивает аудиторию, были ли страйки за нарушение правил. Если успешная серия — новому контент удается буст, если контент не вызывает удержания зрителя — алгоритм режет охваты. Работает это в виде «баллов», которые складываются по определенным формулам

Следующий этап при обработке видео – предсказание успеха. В игру вступают сотни моделей машинного обучения, которые смотрят ролик и делают ставку, будет ли он интересен. Причем они предсказывают не абстрактное«людям понравится», а конкретную карту предсказаний — досмотрят 67% зрителей, тут будут перематывать, а в этом моменте будут ставить лайк, а этот ролик вообще не будут сохранять.

Как работает предсказание и почему ML это знает? Так работает машинное обучение! Это Deep Learning – внутри датасет из миллиардов единиц контента с детальной картой параметров(которые упоминал выше) и анализом поведения каждого конкретного пользователя дают возможность предсказывать дальнейшее поведение на основании всей этой информации, это математика, статистика, машинное обучение. Science, bitch!

Как видео попадают тебе в ленту

Когда ты открываешь Instagram*, перед тобой уже готова подборка роликов — не случайных, а отобранных именно под тебя.Каждый пользователь уникален. У тебя есть цифровой профиль — «вектор интересов», который формируется из всех твоих действий:что смотришь до конца, что пересматриваешь,что листаешь мимо.

Каждое видео описано данными. Для алгоритма это не просто «видео про спорт», а набор числовых признаков: что в кадре, какая музыка играет, есть ли текст, какой стиль монтажа. Алгоритмы ищут совпадения. Система сравнивает твой профиль с миллионами роликов и ищет наиболее близкие совпадения.Именно так видео находит»тебя. Реальное время. Вся эта магия происходит за миллисекунды — как только ты свайпнул, модель уже предсказывает, какой следующий ролик даст наибольшую вероятность, что ты его досмотришь до конца

Первый этап воронки это Retrieval — отбор кандидатов. Когда ты открываешь Reels, система показывает неслучайные видео. У тебя есть вектор интересов — цифровое описание твоего поведения. Пример: «смотрю до конца ролики про Москву, пересматриваю мемы, быстро пропускаю мемы про бывшую». У каждого ролика тоже есть набор векторов, например «спорт + быстрый монтаж + текст вначале + мужской голос».

Каждый пользователь и каждое видео для алгоритма — это не «человек» или «рилс»,а точка в многомерном пространстве. Эта точка описывается числовым вектором. Например: Пользователь: [0.72 (спорт), 0.03 (танцы), 0.65 (технологии), 0.12 (коты), 0.88 (юмор)…] Видео: [0.70 (спорт), 0.02 (танцы), 0.69 (технологии), 0.10 (коты), 0.85 (юмор)…]

А вектор пользователя строится из его поведения: какие ролики досматривает, где ставит лайки, какие темы комментирует, где задерживается даже без действий. И самое главное — вектор динамический: каждый скип, лайк или досмотр мгновенно чуть меняет профиль. Алгоритм ищет совпадения. Если векторы похожи (высокая косинусная близость), значит вероятность, что человек залипнет на рилсе, выше. Вот и мэтч. Из миллионов роликов остается несколько тысяч кандидатов, которые по мнению отдельной ML-ки могут зайти к конкретному зрителю

Следующий этап, Ranking – первое ранжирование. Теперь эти тысячи кандидатов для показа оценивают сотни ML моделей. Их задача — предсказать поведение на каждом ролике: досмотрит до конца, пересмотрит, лайкнет, напишет комментарий, сделает репост, подпишется на автора. Retrieval делает быстрый грубый мэтч (алгоритм Two-Towers + векторный поиск), аranking — тонкую донастройку предсказаний по каждому кандидату.

Дальше из этих вероятностей собирают общий скор — по сути, ожидаемую ценность показа: Score = w₁*P_watchthrough + w₂*P_rewatch +w₃*P_follow + w₄*P_share + w₅*P_comment +w₆*P_like У каждого действия свой вес. Подписка и пересмотр — самые сильные сигналы, лайк —минимальный, про них позже. Результат — прогноз твоего поведения под конкретным роликом.

Последний этап перед показом ролика, Re-ranking – второй слой. Теперь вступают дополнительные правила: – разнообразие (чтобы тебе не показывали 10 одинаковых мемов подряд), – свежесть (новый рилс может получить буст к охватам), – рейтинг автора (стабильные авторы с высокой вовлеченностью получают буст), – ограничения по безопасности и политике (например, за логотип TikTok охваты снижаются). Видео могут чуть подвинуть вверх или вниз,даже если у них одинаковый базовый скор.

Предсказание не равно истина. Важно: все эти расчеты — прогноз, а не гарантия. Поэтому каждое новое видео сначала показывают маленькой тестовой аудитории. Смотрят retention: досмотрели ли до конца, есть ли пересмотры. Проверяют реакции: комменты, репосты, подписки. Если показатели выше среднего то видео масштабируют. Видео будет популярным, если его прогноз посильным действиям (пересмотры, подписки) высокий; у зрителя в ленте всегда именно то, на чем он с максимальной вероятностью задержится.

КАК ЗАСТАВИТЬ АЛГОРИТМЫ ПОВЕРИТЬ, ЧТО ТВОЙ КОНТЕНТ БУДУТ СМОТРЕТЬ

Чтобы алгоритмы начали продвигать видео, они изначально должны поверить, что этот контент понравится пользователям и они будут с ним взаимодействовать. А верят они, сравнивая результаты покадрового анализа ролика с накопленными данными об успешных роликах.

Первая задача - пройти фильтр этапа Retrieval

Миссия retrieval: из миллионов роликов быстро выбрать несколько тысяч похожих на твои вкусы по эмбеддингам (векторным представлениям). Если алгоритм не распознал тему/жанр — ролик даже не попадет в кандидаты. Чем понятнее сигналы жанра, тем выше уверенность классификации. Вектор видео должен совпасть с вектором пользователя. Нечитаемый жанр = видео пролетает мимо нужной аудитории

CV-модели считывают лица/объекты/сцены/движение. Аудио-модели слушают голос/музыку/ритм, из этого строится аудио-вектор. OCR читает текст в кадре и сопоставляет его с визуалом/аудио. Совпадение усиливает понимание темы, рассинхрон — снижает. Дай алгоритмам понять, о чем видео. В первые 3–5 сек покажи лицо/ключевой объект/контекст жанра. Дай короткую фразу голосом и короткую фразу на экране про тему ролика, совпадающие по смыслу. Поставь характерную музыку: алгоритм уже знает, что грустная песня про любовь не будет в видео про ремонт квартир.

Важно визуальное разнообразие. Модели видят динамику кадров и понятные объекты. Статичная картинка = риск раннего ****а. CV извлекает движение и смену сцен. Единообразие = низкая информативность по кадрам = зритель быстрее устает = early drop = падает досмотр. Разные планы увеличивают сигнал жанра, улучшают retrieval-мэтч и держат внимание = растет досмотр/повторный просмотр. Алгоритм понимает, что видео досмотрят.

При проектировании ролика учитывай смену плана каждые 2–4 сек. На биты/смысловые точки — визуализация (скрин/графика/руки/объект/whatever что совпадает по смыслу). Не скрывай лицо и ключевой объект (алгоритм любит узнаваемые признаки). Избегай водяных знаков, мутной или шумной картинки – алгоритм не сможет распознать объекты и у твоего видео будет меньше смысловых признаков.

Субтитры нужны не для красоты, а для алгоритма распознавания текста. Ошибкой будут микроскопические или нечитаемые шрифты, абстрактные фразы, рассинхрон с речью/смыслом/визуалом OCR модель читает текст и сопоставляет его с кадром, речью. Читабельный, синхронный текст усиливает понимание темы = выше шанс попасть в правильные кластеры пользователей. Перегруз/рассинхрон создает когнитивный шум, который ведет к ранним скипам, от чего падает досмотр.

Звук решает не меньше картинки. Аудио-модель делает эмбеддинг жанра/настроения: это юмор? История? Лайфхак?Распознавание текста + речи = семантический мэтч: что ты говоришь и что показываешь, то есть о чем это видео? Плохой голос = менее точное распознавание = хуже мэтч = ниже шанс попасть в нужный кластер. Голос громче музыки; шумоподавление. Трендовый трек ок, но озвучка голосом = алгоритм думает, что на вас подпишутся.

Речь должна быть четкой и внятной: облегчай алгоритмам работу по распознаванию того, что ты говоришь. Быстрая речь > медленная речь, но так, чтобы если человек зажал x2 на экране, речь все еще была понятной (иначе человек скипнет видео, алгоритм думает об этом заранее) Алгоритмы не оценивают красоту. Они считают вероятность сильных действий на базе параметров видео и поведения пользователя и уже знают, как ведут себя зрители, в которых ты целишься.

Задача спроектировать ролик так, чтобы эти вероятности были максимальными еще до первых 100 показов. Еще раз, почему это важно? Если алгоритм не поверит, что ваше видео будет успешным – тогда видео просто проиграет конкурентам: тысячи видео соревнуются за то, чтобы попасть в ленту зрителю. Алгоритм отдает предпочтение тем видео, которые соответствуют признакам потенциально вирального контента плюс соответствующего интересам зрителя.

Словарик Buzzwords*

ML (Machine Learning) – отрасль искусственного интеллекта, в которой компьютеры учатся выполнять задачи, распознавать закономерности и делать прогнозы на основе данных без прямого программирования.

Deep Learning (глубокое обучение) — это вид машинного обучения с использованием многослойных нейронных сетей, которые самообучаются на большом наборе данных.

CV (Computer Vision) – область искусственного интеллекта, которая позволяет компьютерам видеть, анализировать и понимать визуальную информацию.

OCR (Optical Character Recognition) — это технология оптического распознавания символов, которая преобразует изображения, содержащие текст.

ASR (Automatic Speech Recognition) – это технология, которая переводит устную речь в текст.

Что является самыми сильными признаками для алгоритмов

ML Ranking предсказывает вероятности действий на основании исторических данных и собирает общий скор рилса. Сильные действия тянут наверх, легкие напротив, почти не влияют. Алгоритмы это не придумали, они опираются на исторические данные поведения пользователей.

Надеюсь, ни для кого не секрет, что лайки это последняя метрика для оценки успешности рилса? Вес действий выглядит примерно так: Подписка примерно равна пересмотру и сильнее репоста к себе или в директ, которые сильнее комментария, который сильнее лайка. Почему подписка и пересмотр такие сильные –потому что алгоритм считает, что если человек посмотрел рилс 2+ раза, значит контент ценный прямо сейчас. Сохранение – пригодится в будущем. Это сильные действия.

Виральность начинается со следующих коэффициентов действий на первых 500–1500 показах:

досмотр видео (15–25 с ролики имеют большую досматриваемость): 60–70%+
повторный просмотр: 10–20%+
в подписку: 0.3–0.8%+
комментарии: 1–2%+
поделиться: 2–4%+

Отслеживать эти показатели можно в приложении Edits. Задача спроектировать ролик с упором нарост сильных действий.

Ранний **** (когда ролик пропускают) — самый токсичный сигнал для показателя досматриваемости видео. Если 20–30% зрителей скипают рилс в первые 0-3 сек, модель начинает понижать скор (рейтинг) ролика. Ориентироваться надо на **** на 0–3 сек меньше 20%. Если больше — хук необходимо менять.

Существует миф, что нужно загружать ролик 100 и более раз. Но это миф. Если глаза завязать и дротик бросать с 10 метров, один раз тоже попадете, см. Теорему о бесконечных обезьянах. В реальности все с точностью до наоборот Финальный re-ranking слой алгоритма следит за diversity (разнообразием). Дубликаты и однотипные рилсы конкурируют между собой— покажут 1-2, остальные получат нулевой скор и не попадут в ленту. Перезаливы понижают авторский скор, что влияет на каждый последующий рилс.

В копилку мифов – миф про теневой бан. Как такового, «shadow ban» не существует. Но над ранжированием стоит слой Integrity и политики Brand-Safe. Контент с триггерами получает меньше показов, даже при нормальном retention, просто потому что такова политика платформы.

Integrity-алгоритм триггерится на следующие темы:

– откровенный адалт/18+ подтекст
– обещания гарантированно заработать
– открытая агрессия/хейт спич/оскорбления
– использование чужих рилс с водяными знаками (всегда избегайте логотипов TikTok и других конкурентов Meta)
– кликбейты, вводящий в заблуждение контент

Если все же хочется говорить про эти темы, меняйте формулировки. Кстати, на маты при этом алгоритм никак не реагирует, если это не какой-то хейт спич (и люди не нажимают пожаловаться).

Когда ты заливаешь рилс, он не сразу падает в ленту ко всем, а попадает в песочницу. Алгоритм берет малую аудиторию, обычно от 100 до 500 человек, точная цифра динамически меняется. Цель — проверить, совпадают ли реальные метрики с прогнозом ML. Есть Trial Mode, когда ролик публикуется не в ленту, а внешней аудитории (не-подписчики). Отличие для алгоритмов в том, что в пробном режиме сигналы идут только от действий внешней группы и не влияют на итоговый скор автора.

Если загружать прямо в аккаунт минуя пробный режим, рилс сразу получает свои 100–500 показов, но результаты влияют на твой author score. И если несколько подряд роликов проваливают retention, то профиль получает минус – у профиля автора есть мультипликаторы.

ЧЕК-ЛИСТ ALGORITHM-FIRST РИЛСА

Исключая аномально-абсурдный контент (вроде italian brainrot), традиционный контент, особенно для начинающих авторов необходимо проектировать с учетом особенностей алгоритмов. Задача автора сделать такую единицу контента, глядя на которую алгоритм поверит – этот ролик залетит.

Источники

1. Scaling the Instagram* Explore recommendations system2. Journey to 1000 models: Scaling Instagram’s* recommendation system 3. How Instagram* suggests new content 4. Faiss: A library for efficient similarity search 5. Inside Facebook’s video delivery system 6. What is the Instagram* Feed? 7. Reels Chaining 8. Explore 9. Rosetta: Large-scale text recognition in images 10. DLRM: Deep Learning Recommendation Model 11. How machine learning powers Facebook’s News Feed ranking algorithm 12. Matching and ranking content items 13. The AI behind unconnected content recommendations on Facebook and Instagram* 14. Reels Ranking Signals 15. On the Value of Diversified Recommendations 16. A New Ranking Framework for Better Notification Quality on Instagram* 17. Privacy within Meta’s Integrity Systems 18. Community Standards 19. Brand Safety