Термин «наука о данных» появился около 10 лет назад и в конечном итоге превратился в одно из самых модных слов в современном мире. От научных кругов до правительственных организаций, до компаний почти в каждом секторе, постоянно прилагается все больше и больше усилий, чтобы максимально использовать это, и, следовательно, создало много новых названий должностей, таких как Data Scientists и Data Engineers.
Что такое наука о данных?
Наука о данных — это, как следует из термина, наука о данных. То, что подпадает под это определение, очевидно, меняется по мере развития технологий, как показали последние десятилетие или два. В соответствии с нынешней технологической структурой это включает в себя все, от сбора данных до всех методов хранения и анализа, вплоть до различных каналов, которые используют результаты. Этот тип цепочек обработки данных теперь обычно называют конвейерами данных...
Конвейеры данных
Конвейер данных обычно представляет собой упорядоченную коллекцию компонентов, манипулируемых данными, на всем пути от сбора данных до представления полезной информации, извлеченной из него, и всего, что между ними. Действуя как производственная цепочка, каждый из этих компонентов отвечает за обработку предоставленных входных данных определенными способами, а полученные выходные данные используются в качестве входных данных для следующего. В то время как термин обычно относится к долгосрочной реализации компонентов, чтобы максимально автоматизировать процесс, адекальный анализ обычно следует очень похожему подходу. Эту цепочку обработки можно эффективно разделить на четыре основные категории:
Сбор данных
Этот первый (практический) этап процесса подготавливает данные для дальнейшего анализа. Перед этим обычно проводится мозговой штурм, который использует вопрос / проблему, чтобы укаждать, какие данные требуются для сбора. Иногда это может быть сначала связано с некоторым (часто автоматизированным) процессом сбора данных, будь то веб-скрайминг или данные, поступающие от удаленных датчиков через мобильную сеть. В зависимости от метода это может включать программирование некоторых веб-сканеров или сценариев, собирающих данные из какого-либо источника данных API.
Хранение данных
Затем они направляются в какую-то платформу хранения данных, которая может быть чем-то в облаке или локальных базах данных. Этот ченнелинг часто включает в себя некоторые преобразования формата данных (иногда включенные в определение Data Engineering), так что результат совместим с хранилищем, которое часто оптимизировано для эффективного извлечения данных. Структура таких платформ хранения данных часто специально разработана для связанных приложений и часто подпадает под ответственность инженеров данных, в обычные обязанности которых также входит написание (часто SQL) функций, которые извлекают оптимальность данных для дальнейшего анализа.
На самом деле, большинство необработанных наборов данных содержат много шума, который необходимо очистить. Инженеры по обработке данных, как правило, отвечают за подготовку данных к анализу, и это часто включает в себя внедрение процедур, при которых большая часть процедур очистки, а также сбора и хранения, описанных выше, максимально автоматизированы, максимально эффективны.
Анализ данных
Основной целью этого этапа является извлечение тенденций и закономерностей, которые присущи данным. Существует множество различных подходов к этому в зависимости от типа данных, а также конечных целей проекта. Обычно это включает в себя построение модели с использованием существующих данных с методами, варьирующимися от регрессии, анализа временных рядов до различных типов алгоритмов машинного обучения, таких как кластеризация и нейронные сети. Применение таких моделей может варьироваться от прогнозирования данных временных рядов в коммерческом и финансовом секторах до распознавания изображений для классификаций опухолей и технологий автономного вождения.
Презентация
Это этап, на котором используются конечные результаты. Им понравится либо появляться в каком-то отчете/презентации, либо в готовом конвейере данных, интегрированном в систему.
Обычно для проведения дополнительного анализа полученные выводы представляются заинтересованным сторонам либо в виде отчета, либо в виде слайд-презентации. Весьма вероятно, что заинтересованные стороны, скорее всего, будут гораздо менее информированы о технических деталях трубопровода. Роль специалиста по данным здесь очень похожа на роль продавца, основной целью которого является убеждение заинтересованных сторон в том, что проделанная работа более чем стоит того, и она очень полезна для заинтересованных сторон.
Хорошая визуализация данных является ключом к предоставлению результатов анализа (знаменитая цитата «Изображение стоит тысячи слов» часто является огромным преуменьшением в этом контексте). Data is Beautiful и Data is Ugly - это два суб-реддита, которые содержат много интересных примеров, которые можно найти очень полезными в качестве руководства при их создании.
Этот конечный результат будет похож либо на какой-то отчет/презентацию, либо на готовый конвейер данных, интегрированный в систему, которая будет продолжать работу в высокоавтоматизированном режиме.
Заключение
Чтобы оптимизировать ценность, которая может быть создана из этих компонентов, специалистам по обработке и анализу данных часто необходимо начинать работу с заинтересованными сторонами в качестве консультантов, обычно называемых «подходом к бизнес-проблемам». Это этап, на котором специалист по обработке и анализу данных собирает информацию от заинтересованных сторон, чтобы определить:
Конечная цель проекта — чего заинтересованные стороны хотят достичь с помощью этих инвестиций во время и деньги.
Какие данные собирать — обычно это обусловлено конечной целью.
Требования к точности — для некоторых проектов нет ничего необычного в том, чтобы пожертвовать немного точностью в обмен на производительность ответа, такую как системы реального времени.
Потребность в дополнительном оборудовании — если есть достаточная инфраструктура для использования конечного продукта проекта.
Обеспечение того, чтобы каждый из этих аспектов был на удовлетворительном уровне, так же важно, как и результирующая производительность каждого из этих компонентов в конвейере данных. Хорошая производительность и эффективность от всех этих факторов являются крестными для окончательного успеха.