Подборки автора
Статьи
1 год назад
Нужно поговорить об управлении данными
Легко понять, почему компании, работающие с данными, используют аналитику самообслуживания; когда люди имеют автономный доступ к аналитическим данным, более эффективные решения могут приниматься быстрее — по крайней мере, теоретически. На команды BI ложится роль посредников между необработанными данными и полученными на их основе аналитическими данными. Из бесед с этими командами следует, что это сопряжено с некоторыми довольно серьезными проблемами. В настоящее время организации переполнены требовательными "клиентами" данных, которые привыкли полагаться на данные при выполнении своей работы...
43 прочтения · 1 год назад
SQL, еще раз про оконные функции
Элементарный пример... Многие из нас используют group by. До знакомства с оконными функциями, стыдно признаться, что моим лучшим решением было выполнить самосоединение для извлечения исходного значения. Я и не подозревал, что этот метод очень неэффективен и неэффектен. Однако, выполнив group by, мы получим только одно значение в ответ. Во многих случаях мы хотели видеть исходное значение рядом с агрегированным значением, чтобы провести некоторое сравнение. Какова наилучшая практика для достижения этого? Гораздо лучший способ решить эту проблему - использовать оконную функцию...
3,4K прочтений · 1 год назад
11 Методов оптимизации SQL-запросов, обычно используемых в проектах
Поскольку объем данных продолжает расти, ИТ-отделу потребуются профессионалы, свободно владеющие SQL, а не только на начальном уровне, вместо этого ИТ-отделу нужно, чтобы вы знали, как оптимизировать SQL-запросы. Оптимизация SQL-запросов определяется как итеративный процесс повышения производительности запроса с точки зрения времени выполнения, частоты обращений и многих критериев оценки затрат. Таким образом, оптимизация SQL-запросов может повысить производительность. SQL = Язык структурированных запросов...
63 прочтения · 3 года назад
Как создать и украсить диаграммы Венна в Python
Диаграмма Венна является наиболее распространенной диаграммой в научных статьях и может быть использована для представления взаимосвязи между несколькими наборами данных. С помощью диаграммы Венна можно легко обнаружить общие черты и различия между этими наборами данных. В этом учебном пособии Вы узнаете о трех различных способах создания диаграмм Венна на Питоне и о том, как украсить эти диаграммы. Часть 1: Как создать диаграмму Венна Шаг 1: вам нужно установить библиотеку с именем matplotlib-venn...
2 прочтения · 3 года назад
Топ 3 функции Pandas для ежедневной аналитики
Что хитрого может предложить самая популярная библиотека анализа данных. Пандас - одна из самых популярных библиотек по анализу данных, без всякого сомнения. Она существует уже достаточно давно и включает в себя множество функций экономии времени и нервов. Сегодня мы рассмотрим 3 из них. Подготовительные шаги минимальны, так как нам нужно только импортировать библиотеку Pandas и набор данных: import pandas as pd df = pd.read_csv(‘https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic...
16 прочтений · 3 года назад
Что такое линейная регрессия?
Линейная регрессия - это алгоритм, используемый для прогнозирования или визуализации отношений между двумя различными признаками / переменными . В задачах линейной регрессии рассматриваются два вида переменных: зависимая переменная и независимая переменная . Независимая переменная - это переменная, которая стоит сама по себе, и не подвержена влиянию другой переменной. При настройке независимой переменной уровни зависимой переменной будут колебаться. Зависимая переменная - это переменная, которая изучается, и это то, что регрессионная модель решает или пытается предсказать...
3 прочтения · 3 года назад
Термины обработки данных, которые вы должны знать
Чтобы построить работающую модель данных, вам необходимо понять все основы доступа к данным, их смешивания, очистки и проверки. С общей терминологии начинается любой проект и обучение. Терминология в области науки о данных может смутить даже технических специалистов в большинстве технологических компаний. Некоторые люди могут задаться вопросом, что на самом деле означает наука о данных. По своей сути наука о данных стремится понять вопросы « что  и почему» Эта статья призвана представить все отрасли науки о данных и объяснить ее различные этапы...
1 прочтение · 3 года назад
IBM предлагает Jupyter-ноутбуки с открытым исходным кодом для анализа данных covid-19
В прошлый четверг IBM представила новый набор инструментов с открытым исходным кодом на гитхабе, предназначенный для разработчиков и специалистов по обработке данных, которые хотят помочь выявить тенденции и паттерны продолжающейся пандемии covid-19...
185 прочтений · 3 года назад
Как создать учетную запись WhatsApp с номером США
WhatsApp-это одно из самых популярных и лучших социальных мессенджеров для пользователей iOS и Android. WhatsApp запустил версию для Windows, так что теперь вы можете общаться с семьей и друзьями с помощью ПК...
3 прочтения · 3 года назад
Разговорная аналитика: будущее бизнес-аналитики
Такие бодрые слова как “Alexa”, “OK Google” и “Siri”, являются зачатком нового технологического лексикона, который уже произвел тихую революцию в процессе взаимодействия человека и машины. Рост искусственного...
6 прочтений · 3 года назад
Julia рекламирует свое преимущество в скорости над Python и R
Бенчмарки показывают, что язык программирования Julia может быть лучшим выбором для анализа больших данных с использованием файлов формата CSV. Если вы специалист по обработке данных и вам нужно проанализировать множество CSV-файлов для получения информации, скажем, о ценах на акции и движениях рынка, язык программирования Julia превосходит конкурентов машинного обучения Python и R, по мнению сторонников Julia. Машинное обучение продвинуло Python вверх, что сделало его , вероятно, самым популярным языком программирования среди разработчиков в эти дни, наряду с Java и JavaScript...
3 года назад
"Загрязненность" данных приводит к критическому недоиспользованию аналитиков данных
отнимает много времени, и у аналитиков нет времени на реализацию каких-либо идей, - сообщает Fivetran. Большинство аналитиков данных тратят половину своего времени только на анализ и очистку данных, даже если у них есть идеи, приносящие прибыль. Это не оставляет им достаточно времени для реализации этих стратегий. Хотя организации продолжают вкладывать средства в экспертов в области данных, это может быть уже не так разумно - при отсутствии вменяемых дата-инженеров. Fivetran, в сотрудничестве с...