Найти тему

Какими технологиями должен владеть Data Engineer?

Оглавление
Статья подготовлена для студентов курса «Data Engineer» в образовательном проекте OTUS.

Как известно, Data Engineer является специалистом по загрузке, обработке и организации хранения больших данных. Давайте посмотрим, а с какими технологиями сегодня ассоциируется Big Data вообще? И какими навыками должен обладать человек, который решил стать дата-инженером.

Итак, в настоящее время при работе с большими данными используют широкий спектр технологий, которые можно условно разбить на три группы:

1) для сбора и хранения данных (БД, «облака»);

2) для анализа данных (проверка гипотез, A/B-тестирование и т. п.);

3) для визуального представления данных (графики, таблицы и т. д.).

Расскажем подробнее о некоторых наиболее важных технологиях.

1. Сбор и хранение данных:

Apache Hadoop. Этот фреймворк хорошо известен всем, кто работает с Big Data. И это неудивительно, ведь «слонёнок» Hadoop обеспечивает работу распределённых программ на кластерах, состоящих из сотен и даже тысяч узлов;

Apache Ranger. Данный фреймворк обеспечивает безопасность данных в Hadoop;

базы данных NoSQL. Это HBase, Apache Cassandra и прочие БД, рассчитанные на создание надёжных и высокомасштабируемых и хранилищ огромных массивов данных;

Data Lakes (так называемые «озёра данных»). Речь идёт о неструктурированных хранилищах для большого количества «сырых» данных, которые не подвергались каким-нибудь изменениям перед сохранением;

базы данных In-memory. Это БД, использующие в качестве основного хранилища оперативную память компьютера.

2. Анализ данных:

Apache Spark. Фреймворк, имеющий открытый исходный код. Используется для реализации распределённой обработки данных и входит в экосистему Hadoop;

Scikit-learn. Универсальная и бесплатная библиотека с открытым исходным кодом для анализа данных, написанная на Python;

Elasticsearch. Популярный открытый поисковый движок, который часто используется в процессе работы с большими данными.

3. Визуализация данных:

Tableau. Система интерактивной аналитики, которая позволяет дата-инженеру быстро выполнять анализ больших массивов информации;

Google Chart. Многофункциональный набор инструментов, используемых для визуализации данных.

Освоить некоторые из вышеперечисленных инструментов, а также изучить многие другие, вы сможете на курсе «Data Engineer» в OTUS. Ждём вас на занятиях!