Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика и прикладная математика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к математической статистике добавили Computer science.
Благодаря анализу большого объема данных получается эффективнее принимать управленческие решения. Пользу от анализа данных можно извлечь во всех более-менее прикладных областях, где есть достаточно данных. Для того, чтобы понять как применить анализ данных к предметной области, необходимо в ней разбираться.
Наука о данных охватывает три отдельные, но пересекающиеся сферы:
- навыки специалиста по математической статистике, умеющего моделировать наборы данных и извлекать из них основное;
- навыки специалиста в области компьютерных наук, умеющего проектировать и использовать алгоритмы для эффективного хранения, обработки и визуализации этих данных;
- экспертные знания предметной области, полученные в ходе традиционного изучения предмета, — умение как формулировать правильные вопросы, так и рассматривать ответы на них в соответствующем контексте.
С учетом этого я рекомендовал бы рассматривать науку о данных не как новую область знаний, которую нужно изучить, а как новый набор навыков, который вы можете использовать в рамках хорошо знакомой вам предметной области. (Плас Дж. Вандер «Python для сложных задач: наука о данных и машинное обучение»).
Инструменты Data Science
Python — это один из тех языков, которые крайне распространены именно для аналитических и научных задач. Разработка на Python ведется быстрее чем на других языках, что делает возможным быстрое прототипирование. Python поддерживает несколько парадигм программирования.
Некоторые важные библиотеки Python:
– NumPy — основополагающая библиотека, необходимая для научных вычислений на Python.
– Pandas — инструмент для анализа структурных данных и временных рядов.
– Scikit-learn — интегратор классических алгоритмов машинного обучения.
– SciPy — научная библиотека, используемая в математике, естественных науках и инженерном деле.
– Jupyter — интерактивная вычислительная среда.