Наука о данных (Data Science) занимается решением следующих задач:
- Управление данными — это процесс сохранения и извлечения данных.
- Интеграция и преобразование данных, также часто называемые извлечением, преобразованием и загрузкой (ETL: Extract, Transform, Load) — это процесс извлечения данных из удаленных систем управления базами данными (СУБД), преобразование данных и загрузка их в локальную систему управления данными.
- Визуализация данных — это часть начального процесса исследования данных, а также часть конечного результата, которая заключается в представлении данных и результатов в наглядном и доступном пониманию виде.
- Построение модели — это процесс создания модели с использованием соответствующего алгоритма машинного обучения (Machine Learning) или глубокого обучения (Deep Learning) на основе большого количества данных.
- Развёртывание модели делает такую модель машинного обучения или глубокого обучения доступной для сторонних приложений.
- Мониторинг и оценка моделей обеспечивают непрерывную проверку качества работы развёрнутых моделей на предмет проверки точности, справедливости и состязательности.
Управление активами кода использует управление версиями и другие функции для облегчения совместной работы.
Управление активами данных привносит в данные те же компоненты управления версиями и совместной работы, а также поддерживает репликацию, резервное копирование и управление правами доступа.
Среды разработки, широко известные как интегрированные среды разработки или (IDE: Integral Development Environment), представляют собой инструменты, которые помогают специалистам по обработке данных внедрять, выполнять, тестировать и развёртывать свою работу.
Среды выполнения — это инструменты, в которых происходит предварительная обработка данных, обучение модели и развертывание.
Полностью интегрированный визуальный инструментарий, который частично или полностью покрывает все предыдущие виды задач.
Для выполнения задач Data Science доступны различные инструменты с открытым исходным кодом и коммерческие, которые рассмотрим в дальнейшем.