Самое важное в BIG DATA - подготовка данных! Для расчетов данных не нужны сложные вычислительные машины и системы.
BIG DATA - про гипотезу, про дополнительную информацию, про корректировку имеющих данных (не про математику).
BIG DATA - про трактовку и характеристики данных.
BG DATA - выявление и отслеживание закономерностей между определенными компонентами.
BIG DATA позволяет сделать бизнес эффективнее примерно на 5-7% (это огромные цифры), главное количество и точность данные при анализе.
BIG DATA - учёт ранее неиспользуемых данных, которые могут положительно влиять на определенную функцию бизнеса. Например: в какое время чаще всего покупают, в какую погоду, какие знаки зодиака, используют обувь со шнурками или без.
BIG DATA чаще всего крайне "разношёрстная" с ошибками и пропусками. Данные чаще всего крайне разные: цифры, таблицы, графики, отчеты о покупателях и др....Невозможно и неправильно анализировать каждый компонент BIG DATA в отдельности, необходимо комплексный подход, затем расчет. Необходимо найти переменную, которая объединяет все эти компоненты.
Запрещается приводить данные к единому списку тк можно потерять важные значения и результат будет некорректен.
Важно использовать весь пул предоставленных данных, а не только тот, по которому нам нужен результат (чтобы получить результат именно по необходимым нам критериям необходимо анализировать все данные "в стоке" тк это и есть "реальная картина бизнеса". Базу данных легко скорректировать и получить желаемый ответ, но точность в этом случае нулевая.
Важно максимальное количество данных внести в базу для анализа (если, например, Вам необходимо узнать, как увеличить продажи автомобилей класса люкс в вашем бизнесе, то необходимо взять данные ПО ВСЕМ ПРОДАЖАМ, по всем классам автомобилей, а не только люкс.
Важно отследить действия, которые не состоялись, их продолжительность. Например, в том же примере про машины люкс класса, необходимо добавить в базу данных для анализа:
- сколько людей вообще заходит на точку в каждый месяц (за прошлый год)+ за этот год и сравнить по месяцам;
- в какие часы;
- какой возраст;
- сколько клиентов не далают никаких покупок;
- сколько людей обращаются к консультантам;
- сколько проводит времени клиент один в магазине до контакта с консультантом;
- возраст всех покупателей люкс автомобилей;
- пол, семейное положение;
- средняя примерная скорость передвижения всех клиентов;
- средняя примерная скорость передвижения покупателей автомобилей класса люкс;
- состав делегации покупателей автомобилей класса люкс (с молодыми женщинами,с детьми, с родителями)
- и тд.
BIG DATA
Big data чаще всего используется для разделения данных на кластеры, так называемые устойчивые группы с понятными и отслеживаемыми компонентами на протяжении определенного отрезка времени.
На примере покупателей автомобилей класса люкс мы, с помощью BIG DATA, допустим выявили:
- за прошедшие 16 месяцев,12 месяцев прошлого года и 4 нынешнего (определенный отрезок времени) покупатели (кластер) с индексом "лояльные" (устойчивая группа) покупают машины класса люкс во временной период с 20:00 до 22:00, посещают автосалон с молодыми женщинами, передвигаются по автосалону со скоростью выше среднего, возраст покупателей 60% от 40 до 60 лет, 35% от 25 до 39 лет, 5 % от 17 до 24 лет. Комплектация покупаемых автомобилей - наивысшая 89%, цвет - чёрный 70% (отслеживаемые и понятные компоненты).
Индекс "лояльные" - клиенты, имеющие мотив приобрести автомобиль класса люкс, без оглядки на предложения конкурентов, готовые приобрести автомобиль даже с худшими характеристиками или условиями, чем у конкурентов.
Частотная таблица/парсинг - отсеивание и систематизация данных.
Продолжение следует.....