Найти в Дзене
Семплирование в API Яндекс.Метрики
Семплирование (sampling) — это статистический метод, при котором отчёт строится не по всем данным, а по выборке из этих данных. Например: У вас 1 000 000 визитов за квартал. Метрика берёт 100 000 визитов (10%), считает показатели и умножает результат на 10. Есть нюанс: при семплировании отчёт становится приближённым. Для A/B-тестов, финотчётности или анализа редких событий это может быть критично. API Яндекс.Метрики позволяет явно задавать уровень выборки через параметр accuracy. Также при упрощении запросов уровень семплирования снижается...
3 недели назад
Как выгружать статистику из Яндекс.Метрики по скачиванию конкретного файла
Если на сайте есть какой-либо файл, например анкета в формате PDF для заполнения, и требуется узнать как часто скачивают этот файл, то можно воспользоваться отчётом в кабинете Яндекс.Метрики, который называется «Загрузки файлов». Но этот отчёт может не отобразить все данные из-за семплирования, особенно, если таких скачивания мало. Тогда вооружаемся ноутбуком Jupyter, API Яндекса и пишем Python-код. import locale # Для корректного отображения русских символов в консоли import os # Работа с файловой системой import pandas as pd # Библиотека для работы с таблицами import plotly...
3 недели назад
Генерация речи из текста разными голосами на Python: гайд по edge-tts + librosa
Как сгенерировать речь по тексту и желательно бесплатно? Без API-ключей. С возможностью «накрутить» мультяшные, монструозные или роботизированные интонации на разных языках. Ранее решал задачу по переводу записи звонка в текст. А теперь обратная задача. И вот готовый код для запуска в Google Colab. ⚠ Код работает в Google Colab или любом Jupyter-окружении. !pip install -q edge-tts librosa soundfile numpy import asyncio import edge_tts import librosa import soundfile as sf from IPython.display import...
1 месяц назад
Ошибка множественного A/B-теста. Поправка Бонферрони
Провели множественный A/B-тест (три варианта: A, B, C), где каждое сравнение сделано с уровнем значимости (вероятностью ошибки I рода) α = 0.05 (5%). Какая результирующая ошибка всего теста? Для одного теста (A vs B) ошибка 5% означает, что если на самом деле различий нет, то мы всё равно с вероятностью 5% ошибочно решим, что они есть. В тесте 3 парных сравнений: A vs B, A vs C, B vs C. Если тесты независимы, то вероятность не совершить ошибку в одном сравнении: 1 − 0.05 = 0.95. Для трёх независимых тестов: 1 − (1 − α)ᵐ Для 3 тестов: 1 − (1 − α)³ P(нет ошибок) = 0...
2 месяца назад
Словарь A/B-тестировщика: Что значит «прокрасился тест» и при чём тут светофор?
В большинстве систем аналитики результаты тестов подсвечиваются цветами. Это визуальный язык, который помогает быстро принять решение. Означает статистически значимый положительный результат. Действие — внедряем! Гипотеза подтвердилась, новая версия работает лучше. Означает статистически значимый отрицательный результат. Действие — откатываем / не внедряем. Изменение вредит продукту. Нужно проводить ревью и разбираться, почему так вышло. Означает, что статистической значимости нет. Разница между группами есть, но она настолько мала, что может быть случайным шумом...
2 месяца назад
10 этапов (чек-лист) проведения A/B-теста
Прежде чем считать тестовую выборку, ответьте на три вопроса: (!) Если MDE слишком низкий потребуется огромная выборка. Если слишком высокий — пропустите реальный, но скромный успех. Это метрики, которые не должны ухудшиться в процессе теста. Они страхуют нас от негативных последствий. Примеры: повышаем количество установок приложения, контрметрикой будет количество платных подписок. Если ускоряем загрузку, контрметрикой может быть количество технических ошибок. Задача контрметрики — убедиться, что рост одной метрики не «убивает» другую...
2 месяца назад
Выгрузка Я.Метрики через Yandex Cloud Functions в Я.Диск
Вместо еженедельных ручных выгрузок из Яндекс.Метрики гораздо надёжнее настроить бесплатный сервер-пайплайн, который будет регулярно забирать статистику и складывать её в хранилище (Я.Диск) один раз в неделю по понедельникам за прошлую неделю. Ниже готовое решение для Yandex Cloud Functions: скрипт выгружает данные по реферальному трафику за прошлую неделю, корректно обрабатывает пагинацию API и устойчив к временным сбоям благодаря встроенному механизму повторных попыток. Готовые CSV-отчёты автоматически сохраняются на Яндекс...
3 месяца назад
Python-решение для игры Йога (Peg Solitaire, Brainvita)
Йога (английский солитер, Peg Solitaire или Brainvita) — классическая головоломка. На доске 7×7 с центральным крестом из 33 фишек, необходимо оставить как можно меньше фишек на поле, совершая прыжки через соседние фишки (которые при этом удаляются). В начале игры центральная фишка удаляется, так появляется место для прыжка фишек. Самый результативный вариант, когда после последнего хода остаётся только одна фишка на поле. Алгоритм ниже, за 31 ход достигает этой цели. Всего же вариантов этой игры порядка ~10¹⁶ (квадриллион)...
3 месяца назад
Аналитика Lifetime Value (LTV) в когортном анализе
Lifetime Value (LTV) — это метрика, показывающая общую прибыль, которую компания получает от одного клиента за весь период его взаимодействия с продуктом или услугой. Аналитические подходы к анализу LTV... Самый простой и достоверный метод, но он работает только для «зрелых» когорт, по которым накопилось достаточно исторических данных. LTV = (Общий доход от когорты за весь период) / (Размер когорты) Метод позволяет предсказать LTV пользователя уже на ранних этапах. Формула LTV = ARPA (или ARPU) ×...
6 месяцев назад
Сегментный vs Когортный анализ
Вы группируете пользователей по неделям регистрации (Январь, Февраль, Март) и смотрите на их удержание (когорта — месяц). Когорта | Нед.1 | Нед.2 | Нед.3 | Нед.4 Янв. | 100% | 45% | 35% | 30% Фев. | 100% | 50% | 40% | 35% Мар. | 100% | 55% | 45% | 40% Всё отлично! Удержание новых пользователей растёт от когорты к когорте. Например потому что улучшение онбординга, которое мы запустили в конце февраля, сработало — когорта марта показывает лучшие результаты с первой же недели. Дан ответ на вопрос: «Становимся ли мы лучше?» Разделение всех пользователей за март на сегменты по источнику трафика...
6 месяцев назад
Сегментный анализ в продуктовой аналитике
Сегментный анализ (сегментация) — это систематический процесс разделения пользователей на однородные группы (сегменты) на основе общих характеристик, которые определяют их потребности, поведение и ценность для продукта. Популярный метод, основанный на истории транзакций. Каждого пользователя оценивают по трём осям: ▫ Recency (R — давность): как давно была последняя активность или покупка. ▫ Frequency (F — частота): как часто пользователь совершает действия за определённый период. ▫ Monetary (M — денежность): сколько денег пользователь принёс (общая сумма или средний чек)...
6 месяцев назад