BIG DATA новичкам

7 апреля 20207 апр 2020

3 мин

Самое важное в BIG DATA - подготовка данных! Для расчетов данных не нужны сложные вычислительные машины и системы. BIG DATA - про гипотезу, про дополнительную информацию, про корректировку имеющих данных (не про математику). BIG DATA - про трактовку и характеристики данных. BG DATA - выявление и отслеживание закономерностей между определенными компонентами. BIG DATA позволяет сделать бизнес эффективнее примерно на 5-7% (это огромные цифры), главное количество и точность данные при анализе. BIG DATA - учёт ранее неиспользуемых данных, которые могут положительно влиять на определенную функцию бизнеса. Например: в какое время чаще всего покупают, в какую погоду, какие знаки зодиака, используют обувь со шнурками или без. BIG DATA чаще всего крайне "разношёрстная" с ошибками и пропусками. Данные чаще всего крайне разные: цифры, таблицы, графики, отчеты о покупателях и др....Невозможно и неправильно анализировать каждый компонент BIG DATA в отдельности, необходимо комплексный подход, затем

Самое важное в BIG DATA - подготовка данных! Для расчетов данных не нужны сложные вычислительные машины и системы.

BIG DATA - про гипотезу, про дополнительную информацию, про корректировку имеющих данных (не про математику).

BIG DATA - про трактовку и характеристики данных.

BG DATA - выявление и отслеживание закономерностей между определенными компонентами.

BIG DATA позволяет сделать бизнес эффективнее примерно на 5-7% (это огромные цифры), главное количество и точность данные при анализе.

BIG DATA - учёт ранее неиспользуемых данных, которые могут положительно влиять на определенную функцию бизнеса. Например: в какое время чаще всего покупают, в какую погоду, какие знаки зодиака, используют обувь со шнурками или без.

BIG DATA чаще всего крайне "разношёрстная" с ошибками и пропусками. Данные чаще всего крайне разные: цифры, таблицы, графики, отчеты о покупателях и др....Невозможно и неправильно анализировать каждый компонент BIG DATA в отдельности, необходимо комплексный подход, затем расчет. Необходимо найти переменную, которая объединяет все эти компоненты.

Запрещается приводить данные к единому списку тк можно потерять важные значения и результат будет некорректен.

Важно использовать весь пул предоставленных данных, а не только тот, по которому нам нужен результат (чтобы получить результат именно по необходимым нам критериям необходимо анализировать все данные "в стоке" тк это и есть "реальная картина бизнеса". Базу данных легко скорректировать и получить желаемый ответ, но точность в этом случае нулевая.

Важно максимальное количество данных внести в базу для анализа (если, например, Вам необходимо узнать, как увеличить продажи автомобилей класса люкс в вашем бизнесе, то необходимо взять данные ПО ВСЕМ ПРОДАЖАМ, по всем классам автомобилей, а не только люкс.

Важно отследить действия, которые не состоялись, их продолжительность. Например, в том же примере про машины люкс класса, необходимо добавить в базу данных для анализа:

сколько людей вообще заходит на точку в каждый месяц (за прошлый год)+ за этот год и сравнить по месяцам;
в какие часы;
какой возраст;
сколько клиентов не далают никаких покупок;
сколько людей обращаются к консультантам;
сколько проводит времени клиент один в магазине до контакта с консультантом;
возраст всех покупателей люкс автомобилей;
пол, семейное положение;
средняя примерная скорость передвижения всех клиентов;
средняя примерная скорость передвижения покупателей автомобилей класса люкс;
состав делегации покупателей автомобилей класса люкс (с молодыми женщинами,с детьми, с родителями)
и тд.

BIG DATA

Big data чаще всего используется для разделения данных на кластеры, так называемые устойчивые группы с понятными и отслеживаемыми компонентами на протяжении определенного отрезка времени.

На примере покупателей автомобилей класса люкс мы, с помощью BIG DATA, допустим выявили:

за прошедшие 16 месяцев,12 месяцев прошлого года и 4 нынешнего (определенный отрезок времени) покупатели (кластер) с индексом "лояльные" (устойчивая группа) покупают машины класса люкс во временной период с 20:00 до 22:00, посещают автосалон с молодыми женщинами, передвигаются по автосалону со скоростью выше среднего, возраст покупателей 60% от 40 до 60 лет, 35% от 25 до 39 лет, 5 % от 17 до 24 лет. Комплектация покупаемых автомобилей - наивысшая 89%, цвет - чёрный 70% (отслеживаемые и понятные компоненты).

Индекс "лояльные" - клиенты, имеющие мотив приобрести автомобиль класса люкс, без оглядки на предложения конкурентов, готовые приобрести автомобиль даже с худшими характеристиками или условиями, чем у конкурентов.

Частотная таблица/парсинг - отсеивание и систематизация данных.

Продолжение следует.....