Программист о Data Science

610

подписчиков

Data Science глазами опытного программиста - мой путь специализации в Data Science направлении с самых основ. Каждая статья - это очередной день, приближающий меня к цели. Первая цель - осмысленное участие в Kaggle соревновании. Ничего не поняли - начните с первой статьи "День 0".

Главная Статьи

День 18: [Regression #1] Предсказываем успешность статьи на Zen'е

Модели регрессивного анализа представляют собой восстановленные функции по известным соотношениям аргументов функции и выходным значениям. То есть регрессионные модели основаны на обучении с учителем. Немного погрузиться в терминологию можно здесь. Подробнее почитать про функции можно здесь. Ещё немного о моделях регрессии Регрессионные модели бывают разными, например они могут определять разный вид функции. Ведь по-большому счёту в модели регрессии уже определён каркас функции, а всё что меняется при обучении - это коэффициенты при x...

265 читали · 6 лет назад

День 17: Всё что нужно знать о функциях, чтобы погрузиться в ML

Мы уже рассматривали разные виды матриц в качестве неких функций. Функция в общем смысле может рассматриваться как отображение неких входных параметров на выходные значения, то есть некий алгоритм который при получении на вход x всегда в качестве результата вернёт y. Стоит понимать, что не все функции такие "правильные", но сейчас нас интересуют только такие чистые функции. Все допустимые значения параметров функции объеденяются множеством определения функции. Все выходные значения функции объединяются множеством значений функции...

735 читали · 6 лет назад

День 16: [Decision Tree #3] Обучаем модель и измеряем точность

Ранее мы получили более иль менее подготовленные данные и мы можем начать обучение модели. Но в первую очередь мы должны определиться с тем как мы будем проверять, что модель обучилась хорошо и её результатам можно верить. А что такое хорошо? Для определённости неплохо было бы оперировать числовыми метриками, а не описательными. И естественно такие есть у каждой модели. Какие из этих метрик качества общие для ряда моделей, какие-то специфичные для конкретной модели. Как правило используют сразу несколько метрик для анализа качества модели...

443 читали · 6 лет назад

День 15: [Decision Tree #2] Подготавливаем признаки

Ранее мы сформировали задачу и собрали наши данные в виде структурированного DataFrame'а. Согласно нашей задумке основным признаком для модели должен быть message. Но ничего хорошего не произойдёт, если мы передадим его как есть, так как каждое сообщение уникально и чтобы найти общее мы смотрим как минимум на слова, а не на всё предложение в целом. Нужно разбить предложение на слова, чтобы алгоритм мог сравнивать сообщения на уровне слов: Но и массив слов мы не можем использовать в качестве признака для модели...

149 читали · 6 лет назад

День 14: [Decision Tree #1] Формулируем задачу и собираем DataFrame

Decision Tree - алгоритм с учителем для классификации или регрессии. Немного терминологии: Алгоритмы с обучением или "с учителем" прежде чем использовать нужно обучить на размеченных данных. Алгоритмы "без учителя" используются напрямую без необходимости обучения. Размеченные данные - данные, которые уже включают в себя правильный результат. Их стоит рассматривать как примеры, которые используют обучающиеся алгоритмы для обучения. Задачи машинного обучения делят по основным типам: 1) Задачи регрессии...

233 читали · 6 лет назад