Найти в Дзене
Специалист по разметке данных
Сегодня замечательный день (if you know what I mean), чтобы анонсировать нашу новую программу — Специалист по разметке данных. На текущий момент в сфере искусственного интеллекта сложилась такая ситуация, при которой для обучения сильной нейронной сети нужны несколько компонентов: железо, софт и, непосредственно, данные. Много данных. Железо, в общем-то, доступно каждому через облака. Да, оно может быть недешевым, но GPU-инстансы на EC2 вполне по карману большинству исследователей. Софт опенсорсный, большинство фреймворков можно скачать себе куда-то и работать с ними...
869 читали · 7 лет назад
Обзор нового алгоритма уменьшения размерности UMAP. Действительно ли он лучше и быстрее, чем t-SNE?
Привет, Дзен! Задача снижения размерности является одной из важнейших в анализе данных и может возникнуть в двух следующих случаях. Во-первых, в целях визуализации: перед тем, как работать с многомерными данными, исследователю может быть полезно посмотреть на их структуру, уменьшив размерность и спроецировав их на двумерную или трехмерную плоскость. Во-вторых, понижение размерности полезно для предобработки признаков в моделях машинного обучения, поскольку зачастую неудобно обучать алгоритмы на сотне...
344 читали · 7 лет назад
Как собрать сильную команду аналитиков и инженеров данных? Опыт компании Wish. Часть 2
В первой части мы рассмотрели, как в компании Wish была перестроена инфраструктура данных для того, чтобы увеличить их аналитические возможности. На этот раз уделим внимание человеческим ресурсам и поговорим о том, как дальше масштабировать компанию и создать идеальные команды инженеров и аналитиков. Также расскажем и о нашем подходе к найму самых талантливых кандидатов на рынке. Масштабирование data engineering-а Data engineering в компании может развиваться по двум противоположным направлениям...
7 лет назад
Сравнение топ-4 популярных BI платформ. Какую выбрать?
Сегодня существует огромное количество BI-платформ и инструментов визуализации данных, которые делают так, чтобы данные могли говорить, а всю аналитику можно было наглядно отобразить на экране и поделиться с клиентами. В данной статье мы сравним наиболее популярные и широко используемые BI системы и проанализируем их преимущества и недостатки, чтобы вы могли выбрать одну или несколько из них для своей компании, ведь без качественной бизнес-аналитики сегодня практически невозможно обойтись. Пытаясь...
3121 читали · 7 лет назад
Как мы выстраивали инфраструктуру данных в Wish
Я пришел в Wish 2,5 года назад, дела в компании шли отлично. Наше приложение было в топе в iOS и Android магазинах и продавало более 2 миллионов товаров в день. Мало кто верил, что можно построить большой бизнес, продавая дешевые товары. Однако, используя данные, Wish смогли бросить вызов этим сомнениям. Аналитика данных всегда была у нас в крови. Но когда наш бизнес стал расти огромными темпами, мы не были к этому готовы, обнаружилось множество проблем с аналитикой. Каждая команда внутри компании...
7 лет назад
Кто занимается машинным обучением и что сейчас популярно в Data Science? Результаты опроса среди пользователей Kaggle
Привет, Дзен! В августе 2017 года платформа для проведения соревнований по машинному обучению Kaggle провела опрос среди более чем 16 000 респондентов с целью узнать, в каком состоянии сейчас находится анализ данных и машинное обучение. Результаты были выложены в открытый доступ, поэтому мы решили проанализировать, чем отечественный Data Science отличается от зарубежного, как выглядит типичный пользователь Kaggle в России и в мире, и, наконец, какие алгоритмы и фреймворки наиболее популярны. Кто...
176 читали · 7 лет назад
Введение в обучение с подкреплением: от многорукого бандита до полноценного RL агента
Привет, Дзен! Обучение с подкреплением является одним из самых перспективных направлений машинного обучения. С его помощью искусственный интеллект сегодня способен решать широчайший спектр задач: от робототехники и видеоигр до моделирования поведения покупателей и здравоохранения. В этой вводной статье мы изучим главную идею reinforcement learning и с нуля построим собственного самообучающегося бота. Введение Основное отличие обучения с подкреплением (reinforcement learning) от классического машинного...
275 читали · 7 лет назад
1-я лабораторная работа программы Data Engineer
Как говорится, никогда такого не было, и вот опять. Мы подумали и решили выложить в свободный доступ первую лабораторную работу нашей новой программы Data Engineer. Бесплатно. Без смс. Так вот. Потенциально каждый самостоятельно может пройти эту лабу и почувствовать себя немножко этим дата инженером. Для этого будет все, что требуется. А делать в этой лабе мы будем следующее. Лаба 1. Поднять свой сайт и организовать сбор кликстрима в Kafka 1. Развертывание виртуальных машин Поскольку главная задача...
102 читали · 7 лет назад
“Без data engineer-а ценность модели аналитика стремится к нулю” — интервью с дата инженером Николаем Марковым
Привет, Дзен! Data Engineering становится все более популярным, многие компании постепенно открывают соответствующие вакансии. В связи с этим мы взяли интервью у Senior Data Science Engineer, Aligned Research Group LLC и преподавателя на программах “Специалист по большим данным” и “Data Engineer” Николая Маркова о том, что должны уметь data scientist-ы и data engineer-ы, чего им чаще всего не хватает и как найти свое место в анализе данных. — Расскажи о своем пути в дата инженера. Чем тебя изначально...
7 лет назад
Распознавание дорожных знаков с помощью CNN: Spatial Transformer Networks
Привет, Дзен! Продолжаем серию материалов от выпускника нашей программы Deep Learning, Кирилла Данилюка, об использовании сверточных нейронных сетей для распознавания образов — CNN (Convolutional Neural Networks). В прошлом посте мы начали разговор о подготовке данных для обучения сверточной сети. Сейчас же настало время использовать полученные данные и попробовать построить на них нейросетевой классификатор дорожных знаков. Именно этим мы и займемся в этой статье, добавив дополнительно к сети-классификатору любопытный модуль — STN...
121 читали · 7 лет назад
4 причины стать Data Engineer
Привет, Дзен! На данный момент в Data Science образовался огромный перекос в сторону data scientist-ов, об этой профессии сейчас знают даже те, кто никак не связан с IT, а новые вакансии появляются ежедневно. В свою очередь data engineer-ы не получают того внимания, которое бы соответствовало их важности для компании, поэтому в сегодняшнем посте мы бы хотели исправить эту несправедливость и объяснить, почему разработчикам и администраторам стоит немедленно начинать изучать Kafka и Spark и строить свой первый пайплайн...
564 читали · 7 лет назад
Российские девушки в Data Science. Часть 1
Как известно, в IT мужчин значительно больше, чем женщин, хотя последние зачастую не уступают по знаниям и навыкам. По нашим наблюдениям, в сфере Data Science этот перекос еще сильнее, хотя опять же женщины обрабатывают данные и строят модели ничуть не хуже мужчин. Подтверждением этому для нас стали итоговые результаты участников нашей прошлой группы “Специалиста по большим данным”, когда в топ-5 группы вошли 3 девушки (а их всего в группе было четверо). Мы задались целью найти девушек в разных компаниях...
7 лет назад