Найти тему
Nuances of programming

Наука о данных простым языком

Оглавление

Источник: Nuances of Programming

В школьные годы мы изучали историю, потому что она рассказывала о происхождении эволюции, древней цивилизации, сельском хозяйстве, урбанизации и т. д. Данные работают по принципу человеческого поведения: мы учимся друг у друга и ведем себя определенным образом, что помогает сформировать шаблоны и спрогнозировать результаты.

Многим трудно разобраться в науке о данных из-за большого количества технических терминов. Поэтому мы объясним ее основные понятия так, чтобы было понятно каждому.

Мы рассмотрим следующие темы.

  • Данные
  • Исследовательский анализ данных
  • Групповой анализ
  • Кластеризация
  • Регрессия или Классификация

Данные

Чтобы узнать аудиторию, нужно начать с вопросов. Большинство ответов относятся к числовым формам данных.

Данные находятся повсюду. Количество людей в спортивном зале выступает одной из форм количественных данных. А такие категории, как легкая атлетика, футбол, баскетбол, бадминтон и т. д., называются качественными данными.

Объяснение должно быть построено на примерах, имеющих отношение к жизни или работе людей.

Исследовательский анализ данных

Теперь мы имеем представление о том, что такое данные. В этом разделе мы разберемся в их поведении, шаблонах, отношениях и ассоциациях.

Итак, прошлый пример показал, сколько всего участников находится в комнате, сколько из них относится к определенной группе, а также средний возраст участников, их полученную квалификацию и многое другое.

Однако если кто-то в группе не соответствует шаблону, сегменту или поведению, то он будет считаться лишним. Другими словами, если в комнате окажется человек с химическим образованием, то он будет восприниматься, как посторонний.

Чтобы установить какую-либо связь или ассоциацию между двумя точками данных, то нельзя просто сказать, что она есть. Нам необходимо предоставить доказательства. В науке о данных это нужно сделать с помощью статистической формулы с определением гипотезы.

Групповой анализ

Представьте, что вы менеджер, и вам нужно выбрать, где проводить мероприятие. Вы провели исследование и отобрали три ресторана: A, B и C. Теперь нужно выбрать один из них и при этом точно аргументировать свое решение.

Если данные параметрические (соответствуют нормальному распределению), то нужно сформулировать гипотезу и выполнить статистический тест, например t-критерий Стьюдента (для двух групп) или Дисперсионный анализ (более двух групп).

Однако если данные непараметрические, то необходимо выполнить такие тесты, как U-критерий Манна-Уитни, t-критерий Уилкоксона или Критерий Краскела-Уоллиса. Но что же такое параметрические данные?

Нормальное распределение
Нормальное распределение
Ненормальное распределение
Ненормальное распределение

Два приведенных выше графика помогают лучше понять процесс распределения данных. Если атрибут распределен обычным способом, он будет соответствовать рисунку 1, и его можно отнести к параметрическим данным. Рисунок 2 относится к непараметрическим данным.

Кластеризация

Простыми словами, кластеризация подразумевает группировку. Она помогает понять поведение или модель, а также способствует формированию сегментов.

Один из распространенных примеров: в детстве наблюдали за тем, как звезды образуют различные формы. Мы определяли форму и создавали изображение, визуализируя близлежащие звезды. Теперь представьте, что точки данных также являются звездами.

Мы формируем кластер с помощью математической формулы, например вычисления Евклидова метрика или Расстояние городских кварталов. Однако здесь присутствует одна загвоздка  —  как много кластеров можно сформировать? Вы сможете узнать это при помощи кривой локтя, коэффициента силуэта, оценки силуэта или оценки wss.

Регрессия и классификация

Чтобы понять, что такое регрессия, рассмотрим следующий пример. Мальчик голоден, и он идет к маме за едой. Известно, что он любит только вкусную еду. Поэтому мама пошла на кухню, чтобы ее приготовить. Она знает, что если в продуктах присутствуют ингредиенты x1, x2, x3, x4 и x5, то ее сыну понравится еда, и он будет кушать. Итак, она начала готовить еду из вышеупомянутых ингредиентов, чтобы приготовить блюдо Y.

В данном примере x1, x2, x3, x4 и x5 являются независимыми переменными, а Y зависит от них. Поэтому в будущем можно предсказать не только вкус пищи с помощью этих независимых переменных, но и какие ингредиенты являются наиболее важными.

Мы прогнозируем два исхода событий  —  понравится ли мальчику еда или нет. Таким образом, здесь содержится такой алгоритм классификации, как логистическая регрессия, дерево решений, случайный лес, LDA и т. д. Затем мы измеряем точность алгоритма с помощью отчета о классификации  —  AUC и ROC.

-4

Линейная регрессия  —  один из алгоритмов прогнозирования непрерывной переменной. Обратимся к примеру с мальчиком, который ежедневно ходил по магазинам, чтобы купить конфеты одной марки, например в один день 100, в другой день 66, 71, 78, 86, 99, 45 и т. д.

Мы можем выполнить линейную регрессию, чтобы предсказать, сколько конфет он купит на следующий день. Y_how_many  —  будет зависимой переменной от прошлой покупки (независимая переменная). RMSE (среднеквадратичная ошибка), R-квадратное значение или R-скорректированное квадратное значение  —  все эти показатели выступают метрикой для измерения точности модели.

Читайте также:

Читайте нас в Telegram, VK

Перевод статьи Swetank Pathak: Understanding data science in a simpler way