Найти в Дзене
Семинар по natural language processing 06.08.2019
Сходил я сегодня на NLP семинар от Хуавея. Доклады там были в основном по бертоведению: - Dr. Qun Liu @ Huawei noah's Ark: фишки машинного перевода - Михаил Архипов @deeppavlov - multilingualism of Bert...
148 читали · 5 лет назад
Нужно ли Data Scientist'у становиться ML-инженером?
Об этом рассказал Андрей Белов, руководитель команды подбора персонала Яндекса, на встрече Data&Science. По роду службы он сталкивается с людьми, которые позиционируют себя как аналитики, разработчики, и всё такое. И так оказывается, что если разработчик и аналитик - один и тот же человек, от этого все выигрывают. Традиционная позиция - data scientist, он же аналитик. Другая позиция - МЛ-инженер. Это тот же самый аналитик, но он ещё умеет писать продакшн-код и хорошо шарит в алгоритмах. Для компании...
828 читали · 7 лет назад
Как создать ML-модель, которую клиент захочет внедрить (а не работать в стол)
Об этом рассказал Алексей Рустамов из Loginom Company на встрече Data&Science в Яндексе. Его компания уже лет 20 занимается анализом данных, в частности, кредитным скорингом, на примере которого и строится рассказ. Оказалось, что основная причина низкого проникновения ML - недоверие заказчика к моделям. Но этого можно избежать. Большая часть популярных задач машинного обучения связана с проблемами поиска, рекомендаций, обогащения данных, анализа изображений, перевода, и игр. С другой стороны, в России...
956 читали · 7 лет назад
Как делить выгоду от data science проекта с клиентом
Базовых варианта ценообразования проектов (в частности, в data science) существует три: фиксированная цена, пропорционально затратам, и пропорционально результату.  О выборе между ними рассказал Роман Чеботарёв, CTO из Theta Data Solutions, на конференции Data&Science в Яндексе. Разговор ведётся в основном с точки зрения исполнителя (он менее защищён, ибо клиент всегда прав). Сложности обычно приходят при закрытии проекта: клиенту и исполнителю сложно договориться, сколько же заплатить за него. Поэтому договариваться надо заранее...
128 читали · 7 лет назад
Жизненный цикл коммерческого ML-проекта глазами проджект-менеджера
Сегодня на конференции Data&Science в Яндексе выступал Саша Белугин - преподаватель в НИУ ВШЭ и до недавнего времени главный project manager в Yandex Data Factory. Он поделился своим взглядом на особенности проектного управления в задачах, связанных c анализом данных (в первую очередь  - в промышленности, ибо последний год YDF занималась именно этим). А я записал его лекцию, и сейчас пересказываю своими словами, иногда вставляя что-то от себя. Таких постов будет несколько, ибо и спикер сегодня был не один...
447 читали · 7 лет назад
О ненормальном распределении количества друзей
В предыдущем посте мы познакомили вас с распределением Парето. Сегодня покажем, как оно выглядит в жизни, измерив количество дружеских связей между подписчиками vk-сообщества Матчасти. Для выгрузки данных мы воспользовались кодом на Python (блокнот) и официальным API VK. В сообществе оказалось 700 с чем-то подписчиков, многие из которых находятся друг у друга в друзьях. Соединив их в граф, мы обнаружили в нём "гигантскую компоненту" из 424 человек, которые могут дойти друг до друга по цепочке "рукопожатий" из подписчиков сообщества...
234 читали · 7 лет назад
О законе Парето, неравномерности и нестабильности
Как мы и обещали, рассказываем про распределения, богатые на экстремальные значения - такие, у которых даже дисперсия и матожидание могут быть не определены. В первую очередь, про распределение Парето. Это распределение имеет непосредственное отношение к "правилу Парето", которое он исходно сформулировал сто лет назад как "80% доходов в Италии сосредоточены у 20% семей". С философской точки правило Парето говорит, что, когда речь идёт о социуме, многие распределения очень неравномерны. А математически...
283 читали · 7 лет назад