12 и 14 апреля были обширные лекции в newprolab и потребовалось реально много времени для того, чтобы их полностью переварить и осмыслить.
Четверг
В четверг мы работали с API портала hh.ru, где спарсили 4к вакансий, из которых 2к были технической направленности, а 2к - не технической. А после этого преобразовали их описания в вектора с помощью библиотеки scikit-learn. Нам нужно было понять, насколько эти описания схожи. Для определения сходства мы использовали формулу косинусного расстояния.
Мы построили график, на котором первая половина отражает описание технические вакансий, а вторая не технических. И смотря на это можно понять, что их описания вообще разные.
Эти задачи нам предложил прорешать Петр
а этот ресурс изучить для понимания обработки естественного языка.
Суббота
Субботняя лекция была по машинному обучению. Ее вел Петр, и он рассказывал про типы машинного обучения: обучение с учителем, без учителя и с подкреплением. И на примерах, мы разобрали, где какую стоит применять, ведь в зависимости от выполняемой задачи, одни модели подходят лучше, чем другие.
Затронули основные задачи машинного обучения:
классификация - когда необходимо отнести объект к какой-либо группе. К примеру, есть ряд фото на которых изображены собаки и кошки, и необходимо их распределить в эти две группы.
регрессия, позволяет определить по известным характеристикам объекта значение некоторого его параметра, например, предсказать курс валюты.
Есть еще задачи, но пока мы разобрали только две. И кстати, эта информация была уже мне знакома. А вот новой была информация о метриках, пере- и недо-обучение.
Закончили мы лекцию написание теста по обработке естественного текста :)