В работе с базами и озерами данных есть принципиальные различия. Мы перевели короткую статью об устройстве Data Lake. Она пригодится тем, у кого нет большого опыта работы с реляционными базами данных. Хранилище и серверы для обработки никак не связаны Хранилище и сервер для вычислений работают отдельно друг от друга, в этом ключевое отличие озера данных от базы данных. В традиционных базах данных (и самых первых озерах для Hadoop) хранилище тесно связано с серверами для вычислений: хранилище встроено в сервер или сервер напрямую подключен к хранилищу. В современной облачной архитектуре озера данных хранилище не зависит от вычислительной платформы. Данные хранят в облачном объектном хранилище — обычно в открытом формате вроде Parquet. Для вычислений используют stateless-серверы, их можно включать и отключать по необходимости. Преимущества такого подхода: Сырые данные важнее обработанных В Database данные берут из исходных систем, преобразуют и загружают в таблицу, после этого их уже не
От базы данных к озеру данных: принципиальные различия между двумя технологиями
12 июля 202112 июл 2021
16
3 мин