Найти в Дзене
Две недели, два хакатона и оба раза я не участник.
Раньше мне казалось, что работать 3 дня над проектом тяжелая работа, но лишь потому, что я никогда не был организатором. Две недели назад мы провели внутренний однодневный хакатон для участников школы ИТ решений, но подготовка к нему заняла гораздо больше времени, многие очевидные вещи оказались совсем не такими простыми. Было много переживаний, но после начала, наблюдая за командами, я понял как это классно. Смотреть за тем, как ребята работают, потому что понимаешь, что это было все не зря. Спасибо @tim...
5 лет назад
Анализ данных в бизнесе
На этом занятии мы узнали а зачем бизнесу нужен анализ данных. Анализ данных помогает бизнесу увеличивать рост (выручка, рыночная доля, аудитория и т.д.), а также оптимизировать процессы (сокращение издержек, улучшение качества и т.д.) У многих компаний за годы работы может накопиться много данных. Их можно монетизировать - т.е. использовать для повышения эффективности существующих процессов или для создания новых продуктов. Но данные нужно использовать эффективно, в этом может помочь теория принятия решений...
6 лет назад
Выпускной у программы Big Data
16 июня закончилась программа NewProLab BigData 3 месяца за которые мы узнали очень много: python, ml, hadoop, spark, deeplearning, рекомендательные системы. Но это только начало, еще нужно многое изучить и постоянно развиваться. Было интересно и полезно, нашел новых друзей и стал лучше разбираться в том, как все это работает...
6 лет назад
Как я получил приз от Мегафон
14 июня я получил специальный приз от Мегафона за решение задачи. Это была 10я лабораторная работа у нас на курсе. Нужно было предсказать купит ли пользователь телепередачу или нет. Я набрал максимальный скор. Основная проблема, которую я выделил - несбалансированный датасет. На 5млн строк, в которых передачи не купили, приходилось только 10к, которые купили...
6 лет назад
Искусство презентаций для дата сайнтиста
Сегодня была интересная лекция про storytelling. Сейчас создать хорошую модель не так уж и сложно, гораздо сложнее убедить людей в том, что это круто и полезно, в чем я сам убедился на различных хакатонах. Как же эффективно презентовать свою модель? Александр рассказал про вещи, на которые нужно обращать внимание в первую очередь. Контекст: при презентации нужно учитывать кому ты рассказываешь, в какой момент, офлайн или онлайн. На конференции мы можем рассказать о модели в мельчайших подробностях,...
6 лет назад
Машинное обучение в Spark: классификация, кластеризация и ALS
На этих занятиях мы научились работать с библиотекой pyspark.ml, которую можно назвать аналогом sklearn, но для работы в Spark. Преимущество этой библиотеки - она позволяет обучать модели распределенно, однако хорошо себя показывает только на больших объемах данных. Обучение и создание моделей примерно такое же как в sklearn: импортируем нужную модель, берем данные и обучаем на них. Также есть инструменты для токенизации, работы с текстом и проверки качества модели. Ну и классификация с кластеризацией такие же как в sklearn...
6 лет назад
Анализ данных в командной строке
Занимаясь программированием, я привык, что все необходимое можно написать самому в Питоне или найти код или библиотеку, написанные уже до меня. Но на лекции сегодня (05.05) я смог узнать о работе данных с использованием Bash. В линуксе большинство программ, необходимых программисту, уже реализовано и оптимизировано (все же написано на C). Огромное кол-во программ имеют консольный вариант (rtorrent, мессенджеры, почтовые клиенты и браузеры) Для Linux можно найти и аналоги Pandas (утилиты csvkit и jq), которые позволяют эффективно работать с данными...
6 лет назад
Работа с данными в Spark
Лекция в четверг (18.05) была посвящена работе с Spark (фреймворк для распределенной обработки данных) Spark позволяет работать с данными различных форматов (CSV, JSON), а также с различными базами данных (Hive, MySQL, PostgeSQL, Kafka, Amazon S3 и другими). Работа с Spark DataFrames во многом напоминает работу с pandas (хотя вывод данных не такой красивый как в pandas)...
7 лет назад
Рандомный лес
Занятие 19-го числа мы начали с самостоятельной по машинному обучению, а после чего продолжили добивать задачку с датасетом Титаника. А после чего начали разбирать Random Forest, на пикче пример такого дерева...
7 лет назад
Kaggle и затонувшие на Титанике
17-го числа у нас был крутой практикум по машинному обучению. Его снова вел Петр, и сначала рассказал про kaggle - платформу на которой соревнуются data-сайентисты разных уровней. Кстати, многие соревнования на ней с очень крупными денежными призами. Нашел пару интересных статей по соревнованиям: Соревнование по подсчету морских львов с аэрофотоснимков Выборка из 8,5 млн строк и 29 столбцов для определения хронологии уровня CO в атмосфере Анализ...
7 лет назад
Парсинг вакансий и ML
12 и 14 апреля были обширные лекции в newprolab и потребовалось реально много времени для того, чтобы их полностью переварить и осмыслить. Четверг В четверг мы работали с API портала hh.ru, где спарсили 4к вакансий, из которых 2к были технической направленности, а 2к - не технической. А после этого преобразовали их описания в вектора с помощью библиотеки scikit-learn. Нам нужно было понять, насколько эти описания схожи. Для определения сходства мы использовали формулу косинусного расстояния. Мы...
286 читали · 7 лет назад
Hive, партиционирование и IMDB
Десятого числа уже было 7-е занятие, вот время то летит... Написали самостоятельную по HBase. А затем началась практика по работе с Hive. Именно практические занятия мне нравятся больше всего. Подробно разобрали списки объектов, таблицы, скрипты и загрузку данных. Кстати, запросы в Hive очень похожи на запросы в PostgreSQL, поэтому понять это было не так сложно. Об основных различиях в плане функционирования этих бд здесь. Коснулись темы партиционирования или иначе говоря секционирования, правда только в теории...
122 читали · 7 лет назад