В настоящее время большие данные - один из самых популярных секторов технологий, но как оставаться в курсе меняющихся технологий? Дэвид Пардо из Hays Recruitment рассказывает о различиях между SQL и NoSQL в данных.
Как часто вы слышали, что в этом (новом) мире больших данных новые источники и структуры данных NoSQL являются ключом к эффективной науке о данных? И, кроме того, эти реляционные данные, которые можно запрашивать с помощью SQL, устарели и традиционны и больше не подходят для использования?
Зачем тратить время и деньги на создание процессов ETL, которые переносят данные из одной базы данных в другую и обеспечивают жесткую немасштабируемую модель данных?
Почему бы просто не выгрузить все данные в неструктурированную модель или модель без схемы? Конечно, это дает вам максимальную гибкость, чтобы действительно найти то, что вы ищете в петабайтах данных, которые собирает ваша организация.
Реальность намного сложнее; как это обычно бывает в области науки о данных. На самом деле дискуссия спорный, как всегда, когда говорят о том, какая технология лучше всего подходит для решения бизнес-задач. Я слышал почти идентичные дебаты, когда начал свою карьеру более 20 лет назад, и мне показалось странным, что такие похожие темы снова возникают.
Самый важный аспект науки о данных - это не технологии или структуры данных; он делает то, что может привести к принятию лучших (или более быстрых) решений. Если вы сосредоточитесь на этом всего на секунду, вы поймете, что большинство, если не все, бизнес-решения принимаются в отношении вещей (или для получения технических «сущностей»).
Если наука о данных поможет вам принять лучшее (или более быстрое) решение по поводу чего-либо, то вам лучше убедиться, что ваши результаты анализа данных соответствуют этому. Чтобы быть немного менее абстрактным; если я собираюсь использовать науку о данных, чтобы помочь мне сопоставить кандидата в моей базе данных с работой, за заполнение которой мне платит мой клиент, тогда я лучше смогу сопоставить свои результаты науки о данных с кандидатом и «вещами» работы (сущности).
Я могу, конечно, сделать это несколькими способами, но реальность такова, что кандидат и должность в моей операционной системе будут иметь какой-то уникальный идентификатор, и мне нужно будет связать свои идеи с этими уникальными идентификаторами.
Итак, выбираю ли я извлечение данных из своей операционной системы, преобразование их и затем загрузку в репозиторий NoSQL или реляционную базу данных, мне все равно придется писать и выполнять какие-либо процессы ETL. Однако решение о том, какую технологию и структуру данных я использую, еще предстоит принять.
Я хочу сказать, что решение о SQL или NoSQL должно определяться навыками и технологиями, которые вам понадобятся в вашей работе, а не новейшими блестящими технологиями.
Реальность для большинства организаций такова, что гибридное решение почти всегда обеспечивает наибольшую отдачу и наибольшее влияние на бизнес. По сути, сосредоточьтесь больше на понимании бизнес-решения, на которое вы хотите повлиять, и меньше на технологии, которую собираетесь использовать.