Найти тему
BigDataBoss

Парсинг вакансий и ML

Оглавление

12 и 14 апреля были обширные лекции в newprolab и потребовалось реально много времени для того, чтобы их полностью переварить и осмыслить.

Четверг

начало лекции
начало лекции

В четверг мы работали с API портала hh.ru, где спарсили 4к вакансий, из которых 2к были технической направленности, а 2к - не технической. А после этого преобразовали их описания в вектора с помощью библиотеки scikit-learn. Нам нужно было понять, насколько эти описания схожи. Для определения сходства мы использовали формулу косинусного расстояния.

график вакансий hh.ru
график вакансий hh.ru

Мы построили график, на котором первая половина отражает описание технические вакансий, а вторая не технических. И смотря на это можно понять, что их описания вообще разные.

Эти задачи нам предложил прорешать Петр
а
этот ресурс изучить для понимания обработки естественного языка.

Суббота

Субботняя лекция была по машинному обучению. Ее вел Петр, и он рассказывал про типы машинного обучения: обучение с учителем, без учителя и с подкреплением. И на примерах, мы разобрали, где какую стоит применять, ведь в зависимости от выполняемой задачи, одни модели подходят лучше, чем другие.

Затронули основные задачи машинного обучения: 

классификация - когда необходимо отнести объект к какой-либо группе. К примеру, есть ряд фото на которых изображены собаки и кошки, и необходимо их распределить в эти две группы.
регрессия, позволяет определить по известным характеристикам объекта значение некоторого его параметра, например, предсказать курс валюты.

Есть еще задачи, но пока мы разобрали только две. И кстати, эта информация была уже мне знакома. А вот новой была информация о метриках, пере- и недо-обучение.

конец лекции
конец лекции

Закончили мы лекцию написание теста по обработке естественного текста :)