Озеро данных — это общий репозиторий, который позволяет получать и архивировать большие объемы структурированных и неструктурированных данных (от сообщений в социальных сетях до информации о производственных мощностях) в собственном формате, без необходимости их стандартизации и «нормализации». Это позволяет извлекать данные из любого источника информации без организации их в виде реляционной базы данных, организованной в виде таблиц со структурой и характеристиками, определенными заранее.
Озера данных возникли из-за необходимости «обуздать» большие данные и использовать необработанные данные, неструктурированные или с детализированной структурой, для машинного обучения, однако сохраняется потребность в создании хранилищ данных для аналитических целей бизнес-пользователями.
Хранилище данных направлено на то, чтобы с помощью бизнес-инструментов и аналитики больших данных сделать доступной визуализацию данных, обрабатываемых для конкретной цели или бизнес-процесса.
Пользователи, обращающиеся к озеру данных, должны быть опытными специалистами по данным (data engineer/data analytic) , в то время как пользователи хранилищ могут быть менее опытными. Это связано с тем, что процесс создания хранилищ данных характеризуется предварительной фазой стандартизации информации и моделирования данных с помощью процессов ETL (Extract, Transform & Load - извлечение, преобразование и загрузка), и, следовательно, данные «подготавливаются» к запуску и анализу.
Другими словами, системы хранилища данных предполагают подготовительную фазу по организации данных для предоставления конечному пользователю простого инструмента для анализа, включающую в себя примерно такие этапы:
– анализ бизнес-процессов, направленный на определение потребности в отчетности;
– разработка модели данных и принятие решения о том, какие данные следует связать друг с другом;
– создание ETL;
– выпуск стандартизированных отчетов для конечных пользователей.
В озерах данных эти этапы пропускаются и оставляются на усмотрение конечного пользователя, которому необходимо обладать глубокими знаниями в области анализа данных.
В компании пользователи чаще всего используют данные для отчетов. Им нужно извлекать из хранилищ понятные, «подготовленные» данные. Хранилища для них структурированы, просты в использовании и построены специально для ответов на конкретные вопросы.
Меньшая часть пользователей проводит более глубокий анализ данных. Они часто обращаются к исходным системам, чтобы использовать данные, которых нет в базе данных, или получать другие данные из внешних источников.
Лишь минимальный процент пользователей выполняет глубокий анализ данных, интегрируя новые источники данных, смешивая разнородные данные и умея их читать. В большинстве случаев эти пользователи даже не используют хранилища данных, потому что они работают с данными на другом уровне.
Необработанные данные определяются как данные, которые еще не были обработаны для определенной цели. В озерах данных, главной особенностью которых является возможность получения необработанных данных (данных из отдельных источников в нативном формате), не заботясь об определении структуры на этапе сбора, необработанные данные в основном архивируются, в то время как в хранилищах данных необходимо проводить превентивный анализ, чтобы оптимизировать получение самих данных посредством классических процессов ETL , в ходе которых помимо логики преобразования выполняются дополнительные процессы обработки.
Назначение данных, хранящихся в озере данных, не определено. Это означает, что данные в озерах данных менее организованы и отфильтрованы, чем в хранилищах данных.
По этой причине для озер данных обычно требуется больше емкости хранилища, чем для хранилищ данных. Кроме того, все эти необработанные данные несут в себе риск превращения озер данных в болота данных, если не будут приняты соответствующие меры по обеспечению качества данных и управлению ими.
Болото данных — это результат плохо управляемого озера данных, в котором отсутствует надлежащее качество данных и методы управления предоставлением информации.
Сохраняя только обработанные данные, хранилища не занимают пространство для хранения более, чем нужно, поскольку данные, которые никогда не будут использоваться, не сохраняются. Кроме того, обработанные данные могут быть понятны более широкой аудитории.
Объединение баз данных с различной структурой является сложной задачей и требует огромных усилий по моделированию данных. Кроме того, чтобы ограничить опасность быстрого устаревания модели данных, необходимо предвидеть появление новых наборов данных, которые предположительно подлежат интеграции. Распределенные файловые системы превращают озеро данных в потенциально бесконечно масштабируемое хранилище для консолидации данных.
Озеро данных имеет «плоскую» архитектуру, в которой данные могут быть неструктурированными, полуструктурированными или структурированными и собираться из разных источников. В хранилище данные содержатся в файлах или папках. Озеро данных может быть локальным или в облаке.
Из-за характера своей архитектуры озера данных обеспечивают масштабируемость до эксабайтов. Это особенно важно, потому что при создании озера данных не известно заранее, сколько данных будет сохранено. Традиционные системы хранения данных не обеспечивают такой масштабируемости.
Продолжение следует.
Магистратура ВИШ МИФИ готовит специалистов в области цифровой трансформации жизни, цифровой трансформации экономики, цифровой трансформации технологии и индустрии.