Аналитика на минималках

Как нас обманывают... данные. Часть 2. Внимание на количество

Данные не говорят сами за себя - центральную роль здесь играет наш опыт и наше суждение. Д. Шпигельхалтер Продолжаем анализировать данные по шоколадным батончикам. Описание данных можно посмотреть в первой части. В этот раз попробуем оценить влияние расположения фабрики на рейтинг. Так как страна - это не числовая переменная, то сразу отпадают ряд приемов для проверки гипотез. Например всеми излюбленный df.corr() от pandas (проверка на корреляционные связи) Но можно же построить график средних оценок по странам...

3 года назад

Как нас обманывают... данные. Часть 1. Нелинейность связей

Данные не говорят сами за себя - центральную роль здесь играет наш опыт и наше суждение. Д. Шпигельхалтер В этой статье я попробую это доказать. Очень многие, кто знаком с анализом данных, да что тут скрывать и я тоже, используют ряд методов, которые зачастую приводят нас к ошибочным выводам. А некоторые из них этим еще и пользуются. Например СМИ, когда публикуют результаты опросов. Рассмотрим на примере датасета шоколадных батончиков. Скажем спасибо flavorsofcacao.com за предоставленные данные Данные взяты отсюда https://flavorsofcacao...

3 года назад

Коректировка рейтинга пива на основе байевского метода (Bayesian average)

В этот раз проведем анализ рейтинга пива. Данные честно взяты с Kaggle. Проблематика: Как глядя на данные оценки пива респондентами сказать, какое пиво лучше и насколько. Данных предостаточно, поэтому можно безжалостно удалить строки с пропусками данных. Сразу удалим ненужные столбцы (brewery_id, review_time, beer_beerid ) Вообще - то удалять данные без переназначения переменных плохой тон. И когда то судьба меня за это накажет. Но не сегодня... А пока посмотрим на данные графически. review_overal...

4 года назад

Анализ стоимости Биткоина

Очередное решение задачи с DataCamp Задача: Представим, что мы работаем аналитиком в инвестиционном фонде в Нью-Йорке. Наш финансовый директор хочет выяснить, стоит ли инвестировать часть активов фонда в биткоин. Мы должны подготовить отчет об этом активе и о том, как он соотносится с фондовым рынком в целом. нам предоставили три файла. 1. данные по стоимости и объема продаж биткоина: date -дата продажи open - цена открытия high - максимальная цена внутри дня low - минимальная цена внутри дня close - цена закрытия volume - объем продаж 2...

4 года назад

Как оценить то, что натворил? A/B тестинг (категориальные признаки)

В этот раз будем решать задачу оценки изменений. Сделали новый сайт, изменили технологию, провели опрос. Это все хорошо, но как оценить отличия? Достигнутые показатели - это результат нашей деятельности или воля случая и мы ошибаемся? Ответы на данные вопросы можно получить проведя A/B тест, а на все остальное есть mastercard. Задача снова взята с DataCamp. И так, некая компания провела редизайн сайта. Конечно сразу никто не решился обновить сайт целиком и безвозвратно. Поэтому все изменения вводились постепенно...

4 года назад

В Питере - пить! (применение метода Kmeans на данных по потреблению алгоголя Росси). часть 2. применение метода Kmeans

В первой части был проведен беглый анализ потребления алкоголя в Санкт - Петербурге. В этой части наконец то применим Kmeans. В чем суть алгоритма: Это наиболее простой метод кластеризации данных. Метод машинного обучения без учителя. Задача метода разбить векторное множество на заданное количество классов путем минимизации среднеквадратичного отклонения на точках заданного кластера. Посмотреть как работает алгоритм, и поиграться с параметрами можно здесь Для начала откинем данные ранее 2009 года и добавим дополнительные признаки...

4 года назад

В Питере - пить! (применение метода Kmeans на данных по потреблению алгоголя Росси). часть 1. Анализ и подготовка данных

В данной статье будет показано применение метода Kmeans для решения задачи, представленной на DataCamp. И так. Одна из сетей по продаже алкоголя провела акцию по продаже алкоголя в Санкт - Петербурге. Акция оказалась успешной. И руководство захотело провести данную акцию в других регионах нашей страны. Из - за ограничения ресурсов провести данную акцию по всей стране не возможно. Поэтому необходимо выбрать 10 регионов максимально похожих на Санкт - Петербург. Загрузим набор данных и посмотрим что у нас есть...

4 года назад