Что такое Data Science?
Data Science (наука о данных, англ.) - это применение информатики и математики при работе с большими объемами данных. Вы встречаете результаты этого каждый день: распознавание речи в телефоне, работа поисковиков в интернете, персональные предложения скидок в магазинах, обработка фотографий в смартфоне. Сфера применения науки о данных не ограничивается только интернетом. Вот несколько интересных примеров применения Data Science на практике. На основе математической статистики и методов машинного обучения люди создали технологии, которые могут анализировать и обрабатывать огромное количество данных и выдавать результаты на их основе.
Data Science это новая сфера деятельности человека. Она возникла в начале 2000-х с развитием компьютерных технологий, когда стало возможным делать сложные вычисления в короткие сроки. Прогресс в Data Science создал потребность в специалистах, которые бы могли работать с большими объёмами данных. Сегодня можно выделить 3 направления работы в этой сфере:
- Аналитики данных. Такие специалисты разбираются в предметной области и могут правильно сформулировать задачу анализа данных. Они умеют выделять нужные данные из всего массива, находить в них закономерности, строить прогнозные модели используя машинное обучение. Аналитики данных умеют проверить качество результатов и провести оценку эффекта от использования модели.
- Специалисты в области машинного обучения (ML-инженеры) умеют разрабатывать программное обеспечение для создания прогнозных моделей. Они создают системы искусственного интеллекта (ИИ), которые обучаются на подготовленных данных и делают прогнозы. Для проектирования систем машинного обучения ML-инженеры должны быть хорошими разработчиками, уметь применять алгоритмы и структуры данных, выполнять тесты и оптимизировать процесс обучения.
- Дата-инженеры. Это специалисты, которые собирают и готовят данные для аналитиков и ML-инженеров. Они умеют обрабатывать огромное количество неструктурированных данных и выделять из них самое важное. Дата-инженер знает, как наладить процесс непрерывной обработки данных, избавиться от противоречий и дополнить недостающие данные.
С чего я начал
Наука о данных меня заинтересовала около года назад и я решил в ней разобраться подробнее. Я умею программировать на языках C# и Python и у меня есть опыт в разработке программ и баз данных. На тот момент мне казалось, что с этим багажом я легко разберусь в новой теме и быстро освоюсь в области Data Science. Как же я был ошибался...
Я начал искать в интернете бесплатные вводные курсы и прошел некоторые из них. По их итогам я решил подтянуть свой английский и вспомнить чему меня учили в институте.. Моих знаний по программированию хватало чтобы полностью понять практическую реализацию идей и задач, но все равно пришлось заново пройтись по алгоритмам и структурам данных. С математикой все было гораздо сложнее. Для меня было неожиданностью тот факт, что многие вещи из школьной и высшей математики находят практическое применение при решении задач анализа данных. Вот что я решил повторить:
- Линейная алгебра: решение системы линейных уравнений, матрицы и матричные операции, векторы и векторные операции, Евклидовы пространства.
- Математический анализ: предел, производные и непрерывность функции, экстремумы и разрывы, частные производные, градиент, производная по направлению, интегралы и их вычисление.
- Теория вероятностей и Математическая статистика: свойства вероятности, условная вероятность, дискретные и непрерывные случайные величины, свойства и числовые характеристики распределений, математическое ожидание, дисперсия, нормальное распределение, центральная предельная теорема и закон больших чисел, интервальные оценки, доверительный интервал, уровень значимости, проверка статистических гипотез.
В будущем возникнут еще темы, которые нужно изучить, но для начала, мне кажется, что этого вполне достаточно.
Напоследок хочу рассказать о причинах, по которым я пишу этот пост. Для меня это новая деятельность и с помощью нее я хочу себя мотивировать продолжать изучение темы Data Science. При изучении чего-то нового самый лучший способ усвоить новый материал – это попытаться объяснить его другим людям. Так уж вышло, что мою жену эта тема не сильно интересует и вообще она гуманитарий, поэтому аудитория в интернете — это как раз мой случай. В следующих постах я планирую рассказывать о тех вещах, которые меня заинтересовали или же о тех темах, в которых мне бы хотелось разобраться подробнее.