Предприятие, управляемое данными, нуждается в прочной основе для управления данными и работы с ними независимо от формата или местоположения.
Для современного предприятия данные являются одновременно и основным активом, и большой проблемой. Вся совокупность данных компании содержит сумму знаний компании о ее продуктах, клиентах и сотрудниках.
И все же, эти данные, вероятно, существуют в большом разнообразии форматов, управляемых большим разнообразием приложений. Получение доступа к данным, необходимым сотруднику, может быть затруднено и чревато рисками.
Вполне возможно, что нет ни одного человека или группы, которые имели бы полную картину о всех данных компании. Для этого требуется развитая программная инфраструктура. Вот тут-то и появляется структура данных. С помощью структуры данных предприятие может сделать полный набор данных компании доступным для всех, кто имеет на него права, в том виде, в котором они ему нужны, независимо от того, где эти данные находятся.
Проблема неуправляемой экосистемы данных
Где хранятся данные вашего предприятия? Есть вероятность, что некоторые из них находятся в облаке или нескольких облаках, управляемых различными облачными системами. Некоторые из них находятся в базах данных SQL на корпоративных серверах. Некоторые из них содержатся в документах Microsoft Office. Некоторые из них находятся в текстовых файлах.
Некоторые данные могут быть скопированы в нескольких экземплярах. Администраторы могут счесть слишком рискованным разрешить прямой доступ к основному хранилищу базы данных и предоставить пользователю ее часть или подмножество.
В конце концов пользователь получает необходимые ему данные или их часть, однако к тому времени данные могут уже не быть актуальными.
Структура данных управляет, передает и защищает данные через несколько удаленных и несовместимых развертываний и является важнейшим компонентом стратегии мультиоблачных данных.
Беспорядок в данных неприемлем
Все проблемы появляются из-за отсутствия управляемой, последовательной стратегии в отношении защиты данных, ставя под угрозу соглашения об уровне обслуживания, которые компании заключают с клиентами и партнерами. Когда работают приложения, такие как машинное обучение, пострадавшее предприятие не может гарантировать, что запланированные события начнутся и завершатся по расписанию, как обещано в соглашение об уровне услуг.
Даже самым квалифицированным IT-специалистам трудно предугадать все способы, которыми пользователи захотят получить доступ к данным. Поэтому средства, предоставляемые компанией, не отвечают потребностям пользователей. Насколько лучше было бы, если бы компания действительно могла обеспечить доступ к данным, необходимым пользователям, используя программное обеспечение, которое они предпочитают?
Как выглядит комплексная стратегия обработки данных?
Комплексная стратегия обработки данных, напротив, делает практичным и доступным запуск многоцелевой системы, которая в полной мере использует ценность данных, своевременно вводя в производство полезные приложения (проекты). Аналитики, разработчики и специалисты по обработке данных могут работать с полным и последовательным набором данных и добавлять новые источники данных, не нарушая банк данных и не перегружая его.
Этот комплексный подход позволяет оптимизировать использование ресурсов, избегая ненужного дублирования аппаратного или системного администрирования, а также упрощая процесс разработки решения людьми.
Чтобы сделать все это, структура данных должна обладать определенными важными возможностями:
Глобальное пространство: все данные должны быть доступны через единое согласованное глобальное пространство, независимо от того, находятся ли они локально, в общедоступном или частном облаке или распределены по краю сети.
Несколько протоколов и форматов данных: должен быть реализован широкий спектр протоколов, форматов данных и открытых API, включая HDFS, POSIX, NFS, S3, REST, JSON, HBase и Kafka.
Автоматическая оптимизация хранения и доступа: структура данных должна обеспечивать возможность для предприятия определять, когда данные хранятся в «hot», «warm» или «cold» методах хранения, в облаке или локально и так далее.
Быстро масштабируемое распределенное хранилище данных: потребности предприятия в данных могут расти быстро и стремительно; структура данных должна обеспечить это, а не препятствовать этому.
Мульти-аренда и безопасность: структура данных должна иметь схему безопасности, которая последовательно реализует аутентификацию, авторизацию и контроль доступа, независимо от того, где находятся данные или на каком типе системы они работают.
Отказоустойчивость в масштабе: даже при высоком использовании он должен обеспечивать мгновенный доступ, и все приложения должны иметь одинаковое представление о данных, когда они принимаются.