7 месяцев назад
▶️7 типов баз данных, понимание которых пригодится специалисту Data Science ⏩Иерархические БД — DNS, LDAP В иерархических БД каждая запись имеет одного «родителя». Это создаёт древовидную структуру, в которой записи классифицируются по их отношениям с цепочкой родительских записей. ⏩Сетевые БД — IDMS Сетевые БД расширяют функциональность иерархических: записи могут иметь более одного родителя. А значит, можно моделировать сложные отношения. ⏩Реляционные БД — PostgreSQL, MariaDB, SQLite, MySQL Реляционные БД – старейший тип до сих пор широко используемых БД общего назначения. Данные и связи между данными организованы с помощью таблиц. Каждый столбец в таблице имеет имя и тип. Каждая строка представляет отдельную запись или элемент данных в таблице, который содержит значения для каждого из столбцов. ⏩Базы данных «ключ-значение» — Redis, Memcached В БД «ключ-значение» для хранения информации вы предоставляте ключ и объект данных, который нужно сохранить. Например, JSON-объект, изображение или текст. Чтобы запросить данные, отправляете ключ и получаете blob-объект. ⏩Документная база данных — MongoDB, RethinkDB Документные БД совместно используют базовую семантику доступа и поиска хранилищ ключей и значений. Такие БД также используют ключ для уникальной идентификации данных. Разница между хранилищами «ключ-значение» и документными БД заключается в том, что вместо хранения blob-объектов, документоориентированные базы хранят данные в структурированных форматах – JSON, BSON или XML. ⏩Графовая база данных — Neo4j, JanusGraph, Dgraph Вместо сопоставления связей с таблицами и внешними ключами, графовые БД устанавливают связи, используя узлы, рёбра и свойства. ⏩Колоночные БД — Cassandra, HBase Колоночные БД принадлежат к семейству NoSQL БД, но внешне похож на реляционные БД. Как и реляционные, колоночные БД хранят данные, используя строки и столбцы, но с иной связью между элементами. 📎 Читать подробнее @machinelearning
3 года назад
Определение правил качества данных
Как мы можем измерить качество данных Правильное управление качеством данных зависит от того, как его измерить. Установление показателей и сбор показателей позволяют лучше понять каждый компонент цикла качества данных, поскольку, хотя каждая организация уникальна, существует ряд количественных показателей качества данных, которые являются универсальными: Полнота: это степень, в которой присутствуют все атрибуты данных. Действительность: представляет собой привязку значения данных к его набору значений. Уникальность: степень, в которой все значения, отличные от элемента данных, появляются только один раз...