Найти в Дзене
Как нас обманывают... данные. Часть 2. Внимание на количество
Данные не говорят сами за себя - центральную роль здесь играет наш опыт и наше суждение. Д. Шпигельхалтер Продолжаем анализировать данные по шоколадным батончикам. Описание данных можно посмотреть в первой части. В этот раз попробуем оценить влияние расположения фабрики на рейтинг. Так как страна - это не числовая переменная, то сразу отпадают ряд приемов для проверки гипотез. Например всеми излюбленный df.corr() от pandas (проверка на корреляционные связи) Но можно же построить график средних оценок по странам...
3 года назад
Как нас обманывают... данные. Часть 1. Нелинейность связей
Данные не говорят сами за себя - центральную роль здесь играет наш опыт и наше суждение. Д. Шпигельхалтер В этой статье я попробую это доказать. Очень многие, кто знаком с анализом данных, да что тут скрывать и я тоже, используют ряд методов, которые зачастую приводят нас к ошибочным выводам. А некоторые из них этим еще и пользуются. Например СМИ, когда публикуют результаты опросов. Рассмотрим на примере датасета шоколадных батончиков. Скажем спасибо flavorsofcacao.com за предоставленные данные Данные взяты отсюда https://flavorsofcacao...
3 года назад
Коректировка рейтинга пива на основе байевского метода (Bayesian average)
В этот раз проведем анализ рейтинга пива. Данные честно взяты с Kaggle. Проблематика: Как глядя на данные оценки пива респондентами сказать, какое пиво лучше и насколько. Данных предостаточно, поэтому можно безжалостно удалить строки с пропусками данных. Сразу удалим ненужные столбцы (brewery_id, review_time, beer_beerid ) Вообще - то удалять данные без переназначения переменных плохой тон. И когда то судьба меня за это накажет. Но не сегодня... А пока посмотрим на данные графически. review_overal...
4 года назад
Анализ стоимости Биткоина
Очередное решение задачи с DataCamp Задача: Представим, что мы работаем аналитиком в инвестиционном фонде в Нью-Йорке. Наш финансовый директор хочет выяснить, стоит ли инвестировать часть активов фонда в биткоин. Мы должны подготовить отчет об этом активе и о том, как он соотносится с фондовым рынком в целом. нам предоставили три файла. 1. данные по стоимости и объема продаж биткоина: date -дата продажи open - цена открытия high - максимальная цена внутри дня low - минимальная цена внутри дня close - цена закрытия volume - объем продаж 2...
4 года назад
Как оценить то, что натворил? A/B тестинг (категориальные признаки)
В этот раз будем решать задачу оценки изменений. Сделали новый сайт, изменили технологию, провели опрос. Это все хорошо, но как оценить отличия? Достигнутые показатели - это результат нашей деятельности или воля случая и мы ошибаемся? Ответы на данные вопросы можно получить проведя A/B тест, а на все остальное есть mastercard. Задача снова взята с DataCamp. И так, некая компания провела редизайн сайта. Конечно сразу никто не решился обновить сайт целиком и безвозвратно. Поэтому все изменения вводились постепенно...
4 года назад
Если нравится — подпишитесь
Так вы не пропустите новые публикации этого канала