Найти тему
Логистическая регрессия (часть 4)
1. Логика логистической регрессии I.3. Преобразование вероятностей в логиты Логит тесно связан с понятиями «вероятность» и «шанс». Вероятность – это объективная мера появления некоторого события, измеряемая от 0 до 1. На практике оценкой вероятности служит относительная частота появления события. Значение вероятности 0 означает невозможность появления события. Значение вероятности 1 означает, что событие непременно произойдет. Шансы – это отношение вероятности того, что событие произойдет, к вероятности того, что событие не произойдет...
2 года назад
Логистическая регрессия (часть 3)
1. Логика логистической регрессии 1.2. Знакомство с логистической функцией Мы выяснили, что обычная линейная регрессия с бинарной зависимой переменной сталкивается с рядом трудностей. На помощь нам приходят специальные регрессионные модели бинарного выбора. В рамках таких моделей мы строим модель вероятности того, что бинарная зависимая переменная примет значение 1 при заданных значениях независимых переменных. Для моделирования вероятности бинарной зависимой переменной подбирают специальную монотонно возрастающую функцию, которая может принимать значения только от 0 до 1...
2 года назад
Логистическая регрессия (часть 2)
1. Логика логистической регрессии 1.1. Проблемы обычной регрессии с бинарной зависимой переменной 1.1.2. Проблема достоверности статистического вывода Даже если в некоторых случаях прямая линия аппроксимирует нелинейные зависимости, возникают некоторые проблемы, которые снижают эффективность оценок, несмотря на то, что оценки остаются несмещенными. Проблемы связаны с тем, что регрессия с бинарной зависимой переменной нарушает предположения о нормальности и гомоскедастичности. Обе эти проблемы возникают по причине существования только двух наблюдаемых значений для зависимой переменной...
2 года назад
Формула AUC-ROC (кратко, часть 1)
AUC-ROC равен доле пар объектов вида (наблюдение класса 1, наблюдение класса 0), которые алгоритм верно упорядочил в соответствии с формулой: В этой формуле x – ответ алгоритма для наблюдения (при этом это может быть не только вероятность, но и целое число). Наблюдения положительного класса имеют нижний индекс i, наблюдения отрицательного класса имеют нижний индекс j...
144 читали · 2 года назад
Краткое знакомство с Docker
1. Введение Docker – это платформа, которая предназначена для разработки, развертывания и запуска приложений в контейнерах.  Упрощенно говоря, Docker – это виртуальная машина, на которой уже установлено окружение, которое потребуется для проекта. Возникает вопрос, зачем нужен Docker в DS-проектах? Скорость. Docker позволяет быстро создать среду разработки для data scienceпроекта. Вам не потребуется отдельно устанавливать python, anaconda или библиотеки для data science. Все, что нужно – найти подходящий образ Docker и запустить контейнер...
2 года назад
Логистическая регрессия (часть 1)
1. Логика логистической регрессии Многие социальные явления являются по своей природе бинарными, а не непрерывными или количественными – произошло событие или оно не произошло, человек купил товар или не купил. Бинарные дискретные явления обычно принимают форму дихотомического индикатора. Хотя эти два значения можно представлять любыми числами, использование зависимых переменных со значениями 1 и 0 имеет свои преимущества. Среднее значение такой переменной равно доле случаев со значением 1 и может интерпретироваться как вероятность...
2 года назад
Кривая Лоренца (Lorenz curve) и коэффициент Джини (Gini coefficient)
Кривая Лоренца – график, характеризующий неравномерность распределения доходов среди населения. По оси абсцисс откладывается доля населения, а по оси ординат — доля доходов в обществе в процентном отношении. Допустим, в компании работают 4 человека с суммарным доходом 10000$. Равномерное распределение дохода — это 2500$ + 2500$ + 2500$ + 2500$, неравномерное – 0$ + 1000$ + 2000$ + 7000$. Теперь оценим неравномерность для случая 6000$ + 1000$ + 2000$ + 1000$. Упорядочим сотрудников по возрастанию дохода (1000$, 1000$, 2000$, 6000$)...
427 читали · 2 года назад
Средняя абсолютная масштабированная ошибка (mean absolute scaled error, MASE)
Идея, лежащая в основе MASE, заключается в том, чтобы масштабировать ошибки на основе оценки MAE, полученной на обучающей выборке с помощью методов наивного прогноза или наивного сезонного прогноза. Для временного ряда без сезонности формула MASE выглядит следующим образом: Здесь числитель – средняя абсолютная ошибка, полученная на тестовой выборке. В ее основе лежит |e_j| – абсолютная ошибка прогноза для данного момента времени в тестовой выборке (где J – количество прогнозов). Речь идет об абсолютной...
117 читали · 2 года назад