В эру информационных технологий поток входящих данных огромен. Их необходимо анализировать, обрабатывать и делать соответствующие выводы. Аналитики разработали множество методов и инструментов для обработки больших массивов данных.
Есть 5 основных, которые основаны на принципах математической статистики, но многие даже и не знают об их существовании, не говоря уже о применении в практических целях.
А сколько методов знаешь и применяешь ты?
Среднее значение
Известное со школы понятие "среднее арифметическое значение" в практике более известно как "среднее значение". Находят его следующим образом:
- суммируют все элементы в массиве данных;
- подсчитывают количество элементов;
- делят полученную сумму на количество элементов.
В итоге получается среднее значение, которое дает приблизительное представление о тенденции потока данных. Достоинство данного параметра заключается в том, что его можно легко и быстро вычислить.
Предостережение: в некоторых массивах данных среднее значение может дать неточный результат. Это получается тогда, когда данные имеют сильный разброс или присутствует сильное смещение распределения (другими словами - несколько элементов в одном месте списка имеют значительное отклонение от остальных элементов).
Стандартное отклонение
Эта величина обозначается, как правило, буквой греческого алфавита "сигма". Стандартное отклонение показывает степень отклонения данных от среднего значения. Если его показатель высокий, значит много элементов "отдалены" от среднего значения. Если стандартное отклонение низкое - большинство элементов из массива данных приближены к среднему значению.
Предостережение: как и для среднего значения, стандартное отклонение может дать обманчивый результат, если данные распределены по какому-либо ненормальному закону и имеют много пиковых значений.
Регрессия
Этот параметр показывает зависимость между двумя связанными переменными, которые обычно образуют график рассеивания. После аппроксимации этого графика к линейному виду регрессия показывает тенденцию развития зависимости связанных переменных.
С ее помощью можно с некой достоверностью спрогнозировать будущие значения в массиве данных. Теоретические основы регрессии изучаются в курсе математической статистики университетов и колледжей.
Предостережение: регрессия не достаточно точный параметр. При аппроксимации теряются пиковые значения данных, которые могут иметь большой вес для бизнеса.
Определение размера выборки
Часто нет возможности обработать данные большого массива. В этом случае делается выборка из общего числа значений, и дальнейший анализ касается только ее. При правильной выборке, основанной на стандартном отклонении и методе пропорций, полученный результат имеет высокую достоверность.
Предостережение: при анализе новой группы данных проверенные ранее зависимости могут не сработать, их используют с некоторым запасом достоверности.
Проверка гипотез
Проверка гипотез оценивает достоверность той или иной гипотезы для конкретного массива данных. Результат тестирования гипотезы имеет статистическую значимость, если данные не были случайным набором, а подчинены некоторому закону распределения. Применяется тестирование гипотез как в науке, так и для проверки экономических теорий и бизнес-планов.
Предостережение: при тестировании гипотез следует учитывать возможные вмешательства в результат. Эффект плацебо или эффект Хоторна оказывают заметное влияние на исходные данные.
Более подробно о перечисленных методах анализа статистических данных можно ознакомиться из материалов любого доступного курса математической статистики. Там приведены конкретные формулы и алгоритмы расчета всех параметров, которые будут полезны для трудовой деятельности, ведения бизнеса и анализа его результатов.
| Ставь палец вверх, Подписывайся на канал, Делись статьей с друзьями в социальных сетях |
| MISC - Твое разностороннее развитие |
| Вконтакте | Instagram | Facebook | Сайт проекта |