Найти тему
Physics.Math.Code

Профессия Data Scientist : С чего начать обучение ?

Начнем с мотивации. Где крутятся большие деньги ? Думаю, что большинство из вас сразу догадается, какой будет ответ на этот вопрос. Самые большие деньги в продаже информации. Казалось бы, продажа информации подобно продаже воздуха. Но это не совсем так. Тот, кто владеет целевой аудиторией, кто знает её запросы и желания, тот может связать продавца реального продукта и клиента. И это стоит дорого.

Самым важным в профессии Data Scientist становится не владеть информацией, а делать важные выводы по этой информации.

Как же строится маркетинг в современном мире? Давайте разберемся... В конце статьи самая полезная информация (!)

Наука о данных: что это такое?

Сейчас мы находимся в информационном веке, у нас переизбыток информации. Сайты отслеживают нажатия каждого пользователя, алгоритмы считают глубину прочитывания статей. Ваши телефоны, точнее приложения в них, накапливают данные о вашем местоположении, обращают внимание на клики и время просмотры рекламы. Таким образом, алгоритмически отбираются теги, которые наиболее приоритетны для вас. Каждое ваше действие повышает приоритет определенного тега. Строится карта ваших интересов. Вот здесь появляется отсылка к релевантности рекламы. Стоит вам посидеть несколько дней за вашим девайсом, и он (компьютер, планшет, телефон) "знает" что вам показывать и что вам продавать. Во всех данных, на первый взгляд, не связанных между собой, кроются ответы на вопросы, которые никто из обывателей даже не задавал.

Наука о данных — это дисциплина на стыке практики и теории, занимающаяся обобщенными методами извлечения знаний из большого количества данных. Охватывает в себе множество других наук, таких как: обработка сигналов, математика, вероятностные модели, машинное и статическое обучение, программирование, технологии хранения данных, распознавание образов, теорию обучения, визуальный анализ, моделирование неопределенностей, высокоэффективные вычисления, организацию хранения баз данных.

Что нужно, чтобы получить профессию Data Scientist ?

Профессиональные специалисты по обработке данных являются прежде всего экспертами в области статистики, информатики и теории вероятностей. Все эти области связываются с помощью программирования. Разумеется, существуют разные уровни экспертности. Но для хорошего результата, вы должны объединить основные области знания науки о данных, постоянно развиваться. Специалист по обработке данных пытается выделить ценные наблюдения и факты из большого количества запутанных данных.

Где применяется в реальной жизни ?

Специалисты SkillFactory смогут рассказать подробнее всего. На самом деле, везде в интеллектуальных системах! Наука о данных может применяться даже там, где вы никогда не задумывались. Приложения знакомств анализируют результаты ответов на несколько видов безобидных вопросов, чтобы понять какая будет вероятность близости ( заинтересованности друг в друге ) людей после первого свидания. Думаю, что не нужно говорить об успешности такого приложения, если эти алгоритмы будут грамотно работать :) Успешность приложения = деньги, которые оно приносит на рекламных интеграциях. Представьте, что вы сможете написать такое полезное приложение, которое даст вам возможность пассивного дохода, и не нужно будет работать. Были такие идеи? Напишите в комментариях.

Онлайн-магазины

Крупные представители онлайн-магазинов анализируют запросы и предыдущие покупки женщин, чтобы строить прогнозы в отношении беременности женщин (хотя напрямую женщин об этом не спрашивают). Когда удается распознать таких клиентов, то им предлагаются товары для младенцев или кормящих мам. Т.е. продавец находит целевую аудиторию, повышая вероятность удачной продажи своего товара.

Сайты с рейтингами

Науку о данных, в качестве байесовских оценок решений, используют сайты с фильмами. Например, популярный сайт IMDB ( Internet Movie Database ) использует специальную формулу для расчета рейтинга фильмов. Отсылки к взвешенным средним показателям дают гарантированный подход, что фильм, оцененный 100 000 раз исключительно оценкой 10 не сможет подняться в рейтинге выше, чем например, фильм «Крёстный отец», со средней оценкой 9.2 от более чем 500,000 пользователей.

Безопасность в транспортном средстве

Проект nVidia Drive IX: нейросеть следит чтобы водитель не заснул за рулём. Большой процент аварий происходит по этой причине.
Визуализация:
nVidia Drive IX

Автопилоты

Автопилоты от Tesla, Google, Яндекса (есть и другие производители), которые выполняют роль водителей и вполне успешно. Визуализация: Tesla, Google, Яндекс

Распознает лица

Нейросеть следит за людьми в городе и используется для предотвращения террактов, распознает преступников и так далее. Визуализация: Facial Recognition

Грузчики

На складах Amazon грузчиков заменяют роботы. Визуализация: https://youtu.be/Ox05Bks2Q3s

Кассиры

Amazon GO открыли магазин без кассиров. Российский аналог - Take&GO
Визуализация:
Амазон, Сбер

Курьеры

Роботы-курьеры доставляют еду, документы и всякую всячину. Визуализация: Яндекс, Starship

Как на счёт крупных поисковых систем вроде Яндекс и Google?

Да, эти крутые ребята тоже используют технологии Machine learning (ML - машинное обучение ), Artificial intelligence (AI - искусственный интеллект) и Data Science ( наука о данных, в том числе Big Data ).

При выдаче результатов запросов, большую роль играют такие факторы, как:

Географическое положение и язык - в зависимости от того, где выполняется поиск, в США или в России, поисковик может дать разные результаты, т.к. учитывает культурные и географические различия.

Последние события - по первым буквам «програ...» вам может выдать как «программирование больших данных», так и «программа Путина по улучшению экономики».

Трендовые события - интеллектуальные системы поиска всегда должны учитывать события, которое спровоцировали резкое увеличение количества запросов за последние дни. Чтобы быть на хайпе, нужно отлавливать хайп :)

Прошлые поиски - поисковик изучает то, что вы искали в прошлом, сохраняет это в файлах настройках (логгирование, cookie), затем предлагает вам автозаполнение в соответствие с вашими интересами.

Исправление орфографии и лексики - да, умные поисковики предлагают вам динамически скорректировать ваш запрос, если с одной стороны похож на популярный запрос, но немного отличается от него, откуда и предугадывается вероятность ошибки.

Какой язык программирования понадобится ?

Язык программирования может быть любой. Однако, в области обработки данных чаще всего используются языки: Python, R и SQL для работы с базами данных. Наличие большого количества библиотек и простого синтаксиса делает Python одним из самых удобных языков для анализа данных. Скачать интерпретатор и ознакомиться с документацией языка можно здесь: https://www.python.org/

Хотите изучить всё вместе, а не искать информацию по отдельности? Тогда... 👉 СЮДА ЛУЧШЕ НЕ НАЖИМАТЬ 👈... если хотите идти по более сложному и медленному пути

Какой должен быть план изучения, чтобы войти в профессию Data Scientist

Весь план можно посмотреть вот здесь, но также я приведу краткую последовательность, которая кажется правильной на мой взгляд:

1. Изучить основы языков программирования: Python, R, SQL

2. Понять основы визуализации данных. Здесь можно попробовать использовать встроенные библиотеки, с помощью которых вы сможете строить графики, диаграммы, линии тренда и т.д.

3. Линейная алгебра — область математики, которая лежит в основе науке о данных, так как используется в методах обработки данных. Нужно уметь работать с векторами, иметь представление о векторном и скалярном произведениях, уметь работать с матрицами, знать про различные виды метрик (оценки расстояний в различных структурах данных, при различных ограничениях).

4. Статистика — очередной раздел математики, тесно связанный с теорией вероятностей. Помогает делать количественные и качественные оценки данных. Изучает взаимосвязи (корреляции) между несколькими выборками случайных величин. Активно используется в Data Science.

5. Теория вероятностей — для анализа данных эта дисциплина помогает представлять вероятность в качестве количественного способа оценки неопределенности, связанной с событиями из какого-либо вероятностного пространства различных исходов.

6. Гипотезы и выводы из гипотез — для специалиста по обработке данных нужно выполнять проверки вероятности, что определенная гипотеза является правильной. Нужно уметь сравнивать главную (нулевую) гипотезу с конкурирующей (альтернативной) гипотезой. Чтобы понимать отклонения от нулевой гипотезы, нужно изучить байесовский статистический вывод.

7. Градиентный спуск — нередко нужна оптимизация какого-то решения с помощью минимизации ошибок модели. Так производится настройка модели.

8. Сбор данных — специалисту по обработке данных нужен материал для работы. Поэтому данные нужно уметь собирать, очищать, преобразовывать в удобный для анализа вид. Вы должны научиться читать файлы, извлекать данные из веб-сайтов, анализировать html-код, научиться работать с популярными форматами хранения данных (например JSON или XML). Также нужно уметь искать и использовать API веб-сайтов и веб-сервисов ( Applications Programming Interface).

9. Первичная обработка данных — вычисление основных характеристик выборки, таких как количество точек данных, минимальное и максимальное значения, среднее значение, стандартное отклонение.

10. Машинное обучение — дополнение к лучшему анализу, после того как завершились задачи сведения бизнес-проблем к проблемам в области данных, задачи сбора, понимания, очистки информации.

11. Задача о K ближайших соседях — более точное предсказание можно сделать с учетом рассмотрения ближайших соседей и их классификации по основным критериям.

12. Регрессионный анализ и все виды регрессий — набор методов, которые позволяют определить характер влияния нескольких независимых величин на нужную нам зависимую величину.

13. Деревья принятия решений ( Решающие деревья, Decision Tree ) — методы, помогающие сделать прогнозы в моделировании, чтобы сразу отсеять (или принять) нужные данные.

14. Нейронные сети — модели, необходимые для прогнозов. Основаны на организации и функционировании головного мозга. Каждый нейрон просматривает сигналы, выходящие из других нейронов, взвешивает их, затем сравнивает со своим пороговым значением, чтобы решить: пропускать их дальше или же игнорировать. Отсылка к перцептронам.

15. Кластеризация ( Clustering ) — умение работать с немаркированными данными, то есть случай обучения без учителя. Нужно изучить возможность разбития данных на группы по каким либо критериям.

Где можно изучить профессию Data Scientist ?

Так как число вакансий в Data Science очень быстро растет, то лучше поспешить получить данную профессию. Потому что грамотный Data Scientist нужен практически в любой индустрии, а спрос значительно превышает предложение. Средние зарплаты хорошего специалиста по обработке данных колеблются в диапазоне от 250 000 ₽ до 300 000 ₽ в месяц.

Курс на профессию Data Scientist вы сможете пройти в онлайн-школе SkillFactory. Вот здесь можно ознакомиться с программой курса:

https://skillfactory.ru/data-scientist-pro

Курс разделен на три специализации: Машинное обучение, Компьютерное зрение, Обработка естественного языка. Поэтому каждый сможет найти для себя интересную и актуальную информацию.

Преподаватели курса делают упор на практику ( 80 % обучения ) и фундаментальную теорию. Сами же преподаватели SkillFactory работают в таких известных компаниях, как Яндекс, NVidia, Eora.

У компании хорошие и реальные отзывы, именно поэтому мне не стыдно советовать данный курс:

Отзывы о SkillFactory как об обучающем ресурсе
Отзывы о SkillFactory как об обучающем ресурсе

Формат обучения удобен тем, что можно самому регулировать нагрузку, замораживать курс, проходить его в своём темпе (быстрее или медленнее остальных).

Вся программа курса хорошо структурирована, поэтому не нужно искать самостоятельно книги. Вам дадут всё что нужно для изучения Data Science.

👉 Записаться на курс 👈

Скидка 45% по промокоду: PHYSICSMATH


Сообщество
Physics.Math.Code рекомендует онлайн школу SkillFactory.