Данные не говорят сами за себя - центральную роль здесь играет наш опыт и наше суждение.
Д. Шпигельхалтер В этой статье я попробую это доказать.
Очень многие, кто знаком с анализом данных, да что тут скрывать и я тоже, используют ряд методов, которые зачастую приводят нас к ошибочным выводам. А некоторые из них этим еще и пользуются. Например СМИ, когда публикуют результаты опросов. Рассмотрим на примере датасета шоколадных батончиков. Скажем спасибо flavorsofcacao.com за предоставленные данные
Данные взяты отсюда https://flavorsofcacao.com/chocolate_database.html Допустим перед нами стоит следующая цель. Необходимо выяснить, имеют ли шоколадные батончики с самыми высокими рейтингами какие-либо характеристики, которые могут помочь вам сузить поиск поставщиков (например, процентное содержание какао, страна происхождения бобов и т.д.). Что есть из данных? так как просят проанализировать влияние лецитина на рейтинг, то сразу выделим компоненты из столбца "ингредиенты" и закодиру