Добавить в корзинуПозвонить
Найти в Дзене
Переобучился

Фича-инжиниринг в adtech: какие признаки реально работают в рекламных моделях

В задачах предсказания кликов (CTR) и конверсий (CVR) качество признаков важнее архитектуры модели. Правильные фичи с простым градиентным бустингом часто обходят сложную нейросеть с неправильными. Вот что работает на практике — и что обычно нет. Временны́е признаки Час суток, день недели, время с последней активности пользователя. Простые, стабильные, хорошо обобщаются. Поведение людей в 9 утра и в 23 вечера принципиально разное — и модели это видят хорошо. Поведенческие признаки пользователя Количество кликов за последние N дней, просматриваемые категории, активность в разрезе форматов. Важный нюанс: свежий сигнал важнее накопленного. Клик трёхмесячной давности почти не информативен. Признаки объявления CTR за скользящее окно — один из лучших в adtech. Позиция блока, формат рекламы, длина текста, наличие изображения. Эти признаки легко считаются и хорошо работают на холодном трафике. Кросс-признаки Пересечения пользователь × категория, пользователь × формат дают хороший прирост. Но тр

В задачах предсказания кликов (CTR) и конверсий (CVR) качество признаков важнее архитектуры модели. Правильные фичи с простым градиентным бустингом часто обходят сложную нейросеть с неправильными. Вот что работает на практике — и что обычно нет.

Временны́е признаки

Час суток, день недели, время с последней активности пользователя. Простые, стабильные, хорошо обобщаются. Поведение людей в 9 утра и в 23 вечера принципиально разное — и модели это видят хорошо.

Поведенческие признаки пользователя

Количество кликов за последние N дней, просматриваемые категории, активность в разрезе форматов. Важный нюанс: свежий сигнал важнее накопленного. Клик трёхмесячной давности почти не информативен.

Признаки объявления

CTR за скользящее окно — один из лучших в adtech. Позиция блока, формат рекламы, длина текста, наличие изображения. Эти признаки легко считаются и хорошо работают на холодном трафике.

Кросс-признаки

Пересечения пользователь × категория, пользователь × формат дают хороший прирост. Но требуют сглаживания — target encoding с регуляризацией или байесовское сглаживание. Без этого — переобучение.

Что часто не работает

— Сырой bid-price: коррелирует с таргетингом, близко к утечке целевой переменной — Голый ID рекламодателя без агрегации: переобучение на редких значениях — Сложные поведенческие эмбеддинги без достаточного объёма: шум вместо сигнала

Итог

Лучшие признаки в adtech — не самые умные, а самые надёжные. Быстро считаются, не протекают, работают на холодном трафике. С них и стоит начинать.