Найти тему
Системный анализ

Data Science

Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика и прикладная математика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к математической статистике добавили Computer science.

Благодаря анализу большого объема данных получается эффективнее принимать управленческие решения. Пользу от анализа данных можно извлечь во всех более-менее прикладных областях, где есть достаточно данных. Для того, чтобы понять как применить анализ данных к предметной области, необходимо в ней разбираться.

Наука о данных охватывает три отдельные, но пересекающиеся сферы:

  • навыки специалиста по математической статистике, умеющего моделировать наборы данных и извлекать из них основное;
  • навыки специалиста в области компьютерных наук, умеющего проектировать и использовать алгоритмы для эффективного хранения, обработки и визуализации этих данных;
  • экспертные знания предметной области, полученные в ходе традиционного изучения предмета, — умение как формулировать правильные вопросы, так и рассматривать ответы на них в соответствующем контексте.

-2

С учетом этого я рекомендовал бы рассматривать науку о данных не как новую область знаний, которую нужно изучить, а как новый набор навыков, который вы можете использовать в рамках хорошо знакомой вам предметной области. (Плас Дж. Вандер «Python для сложных задач: наука о данных и машинное обучение»).

-3

Инструменты Data Science

Python — это один из тех языков, которые крайне распространены именно для аналитических и научных задач. Разработка на Python ведется быстрее чем на других языках, что делает возможным быстрое прототипирование. Python поддерживает несколько парадигм программирования.

Некоторые важные библиотеки Python:

NumPy — основополагающая библиотека, необходимая для научных вычислений на Python.

Pandas — инструмент для анализа структурных данных и временных рядов.

Scikit-learn — интегратор классических алгоритмов машинного обучения.

SciPy — научная библиотека, используемая в математике, естественных науках и инженерном деле.

Jupyter — интерактивная вычислительная среда.

-4

Наука
7 млн интересуются