Найти в Дзене

День 189. Основы статистики и AB-тестирования. Типы распределений.

Случайная величина Генеральная совокупность — это полный набор всех элементов, которые исследуют в рамках задачи. Вот несколько правил для генеральной совокупности, которым можно следовать: Выборка — это отдельный набор элементов, отобранных из генеральной совокупности некоторым случайным процессом. Некоторые аспекты для выборки, которые следует учитывать: Случайная величина — это переменная, значение которой определяется случайными факторами и которая может принимать разные значения с определёнными вероятностями. Вероятность события — это отношение числа случаев, когда событие произошло, к общему числу испытаний или наблюдений. Функция вероятности определяет вероятность того, что случайная величина примет определённое значение. Обозначается как P(X=x). Эмпирическая функция распределения определяет вероятность того, что случайная величина примет значение, меньшее или равное заданному. Считается как Равномерное распределение Нормальное распределение Непрерывная случайная величина — это

Случайная величина

Генеральная совокупность — это полный набор всех элементов, которые исследуют в рамках задачи.

Вот несколько правил для генеральной совокупности, которым можно следовать:

  • Чёткое определение. Определите генеральную совокупность чётко и однозначно, указывая критерии принадлежности объектов к ней.
  • Релевантность. Убедитесь, что генеральная совокупность соответствует целям исследования и включает все необходимые объекты.
  • Достижимость. Учитывайте практические ограничения и определите генеральную совокупность так, чтобы данные были доступны и их можно было собрать.
  • Воспроизводимость. Используйте такую формулировку генеральной совокупности, чтобы другие исследователи могли воспроизвести исследование и проверить результаты.
  • Временные рамки. Если генеральная совокупность связана с конкретным временным интервалом, указывайте его в определении.

Выборка — это отдельный набор элементов, отобранных из генеральной совокупности некоторым случайным процессом.

Некоторые аспекты для выборки, которые следует учитывать:

  • Репрезентативность. Выборка должна быть репрезентативной относительно генеральной совокупности, то есть она должна содержать характеристики, которые отражают генеральную совокупность в целом.
  • Размер выборки. Он важен для точности выводов, которые мы делаем на основе анализа данных. Более крупная выборка обычно даёт более точные результаты, однако данные для неё сложнее собрать.
  • Способ отбора выборки. Способ отбора влияет на точность и репрезентативность результатов исследования.
  • Исследовательские ошибки. Всегда следует учитывать возможные ошибки, связанные с выборкой, такие как смещение выборки и ошибки измерения. Смещение выборки возникает, когда выборка не является репрезентативной для генеральной совокупности. Ошибки измерения могут возникать из-за неточностей в сборе, обработке или анализе данных.

Случайная величина — это переменная, значение которой определяется случайными факторами и которая может принимать разные значения с определёнными вероятностями.

Вероятность события — это отношение числа случаев, когда событие произошло, к общему числу испытаний или наблюдений.

Функция вероятности определяет вероятность того, что случайная величина примет определённое значение. Обозначается как P(X=x).

Эмпирическая функция распределения определяет вероятность того, что случайная величина примет значение, меньшее или равное заданному. Считается как

-2
-3

Равномерное распределение

-4
-5
-6

Нормальное распределение

Непрерывная случайная величина — это тип случайной величины, которая может принимать любое значение внутри определённого интервала.

Функция плотности вероятности — это функция, которая описывает вероятность того, что непрерывная случайная величина примет значение в определённом интервале. Она обозначается как fX​(x).

Нормальное распределение — это тип теоретического распределения, в котором значения в основном сосредоточены вокруг среднего. Это распределение имеет форму колокола и описывается двумя параметрами: средним значением μ и дисперсией σ2.

Когда хотят коротко записать «Случайная величина X имеет нормальное распределение с параметрами μ и σ2», используют такой вид: XN(μ, σ2).

Правило «трёх сигм»:

  • В нормальном распределении примерно 68.3% всех значений находятся в пределах одного стандартного отклонения от среднего (μ±σ).
  • Примерно 95.4% значений находятся в пределах двух стандартных отклонений (μ±2⋅σ).
  • И примерно 99,7% значений находятся в пределах трёх стандартных отклонений (μ±3⋅σ).
-7

Стандартное нормальное распределение — частный случай нормального распределения, когда μ=0, σ=1.