Статья подготовлена для студентов курса «Data Engineer» в образовательном проекте OTUS.
Как известно, Data Engineer является специалистом по загрузке, обработке и организации хранения больших данных. Давайте посмотрим, а с какими технологиями сегодня ассоциируется Big Data вообще? И какими навыками должен обладать человек, который решил стать дата-инженером.
Итак, в настоящее время при работе с большими данными используют широкий спектр технологий, которые можно условно разбить на три группы:
1) для сбора и хранения данных (БД, «облака»);
2) для анализа данных (проверка гипотез, A/B-тестирование и т. п.);
3) для визуального представления данных (графики, таблицы и т. д.).
Расскажем подробнее о некоторых наиболее важных технологиях.
1. Сбор и хранение данных:
— Apache Hadoop. Этот фреймворк хорошо известен всем, кто работает с Big Data. И это неудивительно, ведь «слонёнок» Hadoop обеспечивает работу распределённых программ на кластерах, состоящих из сотен и даже тысяч узлов;
— Apache Ranger. Данный фреймворк обеспечивает безопасность данных в Hadoop;
— базы данных NoSQL. Это HBase, Apache Cassandra и прочие БД, рассчитанные на создание надёжных и высокомасштабируемых и хранилищ огромных массивов данных;
— Data Lakes (так называемые «озёра данных»). Речь идёт о неструктурированных хранилищах для большого количества «сырых» данных, которые не подвергались каким-нибудь изменениям перед сохранением;
— базы данных In-memory. Это БД, использующие в качестве основного хранилища оперативную память компьютера.
2. Анализ данных:
— Apache Spark. Фреймворк, имеющий открытый исходный код. Используется для реализации распределённой обработки данных и входит в экосистему Hadoop;
— Scikit-learn. Универсальная и бесплатная библиотека с открытым исходным кодом для анализа данных, написанная на Python;
— Elasticsearch. Популярный открытый поисковый движок, который часто используется в процессе работы с большими данными.
3. Визуализация данных:
— Tableau. Система интерактивной аналитики, которая позволяет дата-инженеру быстро выполнять анализ больших массивов информации;
— Google Chart. Многофункциональный набор инструментов, используемых для визуализации данных.
Освоить некоторые из вышеперечисленных инструментов, а также изучить многие другие, вы сможете на курсе «Data Engineer» в OTUS. Ждём вас на занятиях!