Второе занятие на курсе "Спецов по биг дате" посвящалось питону, который ориентирован на повышение производительности разработчика и читаемости кода, это так википедия пишет. А я с ней соглашаюсь.
Пишу уже пару лет на питоне и в области data science это один из самых популярных языков. Вот этот ресерч тому подтверждение, там питон крепко стоит на третьем месте. Подробнее узнал о таких пакетах как pandas, scikit-learn и Tensorflow, которые созданы специально для современных приложений машинного обучения.
После этого проходили настройку виртуального окружения, типы данных и основные функции для работы с ними. Конечно же затронули работу со строками, файлами и регулярными выражениями.
Решили целую кучу задач из теории вероятности. Нашел книгу по теории вероятности для питона, буду читать. В рецензиях писали, что годная.
На курсах нам посоветовали "Data Science from Scratch First Principles with Python" написанную Joel Grus'ом .
Также, было прикольное задание по MapReduce. Кстати, до этого я не знал, что есть такие настолки, но они есть :)
Если кратко, то это модель распределенных вычислений для работы с наборами данных, которые хранятся на большом количестве компьютеров - нодах, а они уже образуют кластер.
А название пошло от функций map, которая применяет функцию стоящую после нее ко всем элементам списка и reduce - применяет указанную функцию к элементам последовательности и сводит её к единственному значению.
Во время выполнения нас фотографировали и вот, что из этого вышло:
Ну а на последок нам рассказали про работу с json и парсинг веб-страниц, вот про это я хотел бы узнать больше.
Это изучу в первую очередь.