Найти тему
EFSOL

10 проблем с Big Data и способы решения

Оглавление

Для реализации инициативы по работе с большими данными требуется множество навыков работы и передовой опыт. Давайте обсудим 10 современных вызовов связанных с большими данными, к которым должны быть готовы предприятия.

Грамотно реализованная стратегия работы с big data может оптимизировать операционные расходы, сократить время выхода на рынок и создать новые продукты. Но предприятия сталкиваются с множеством проблем, связанных с большими данными, при переходе инициатив от обсуждений в совете директоров к работающим практикам.

ИТ-специалистам и специалистам по работе с данными необходимо создавать физическую инфраструктуру для перемещения данных из разных источников и между несколькими приложениями. Также важно соответствовать требованиям к производительности, масштабируемости, своевременности, безопасности в процессах управления данными. Кроме того, затраты на внедрение и модернизацию ИТ-инфраструктуры необходимо учитывать заранее, поскольку они могут быстро выйти из-под контроля.

Big Data
Big Data

Очень важным аспектом является то, что предприятия должны понимать, почему большие данные важны для их бизнеса.

Одна из самых больших проблем, связанных с проектами по работе с большими данными, сводится к успешному использованию полученной информации. Многие приложения и системы собирают данные, но организациям часто сложно понять, что является ценным, и, исходя из этого, эффективно применять эту информацию.

Если взглянуть шире, ниже рассмотрим 10 проблем, связанных с большими данными, о которых следует знать предприятиям, и советы по их решению.

1. Управление большими объемами данных

Big data по своему определению обычно включают большие объемы данных, размещенные в разрозненных системах и платформах. Первой задачей для предприятий является объединение чрезвычайно больших наборов данных, которые они извлекают из систем CRM и ERP, а также других источников данных, в унифицированную и управляемую архитектуру больших данных.

Когда у вас есть представление о собираемых данных, становится легче сузить понимание, внося небольшие корректировки. Для этого спланируйте инфраструктуру, допускающую постепенные изменения. Попытка больших изменений может привести к возникновению новых проблем.

2. Поиск и устранение проблем с качеством данных

Алгоритмы аналитики и приложения искусственного интеллекта, основанные на больших данных, могут давать плохие результаты, когда в системах больших данных возникают проблемы с качеством данных. Эти проблемы очень сложно аудировать и выявлять, поскольку группы управления данными и аналитики пытаются получить все больше и больше разных типов данных. Bunddler, онлайн-рынок для поиска помощников по покупкам в Интернете, который помогает людям покупать продукты и организовывать доставку, столкнулся с этими проблемами на собственном опыте, когда его количество клиентов увеличилось до 500 000. Ключевым фактором роста для компании стало использование больших данных для обеспечения персонализированного опыта, выявления возможностей дополнительных продаж и отслеживания новых тенденций. Ключевой задачей было эффективное управление качеством данных.

Необходимо постоянно отслеживать и исправлять любые проблемы с качеством данных. Повторяющиеся записи и опечатки распространены, особенно когда данные поступают из разных источников. Чтобы обеспечить качество собираемых данных, команда сервиса Bunddler создала интеллектуальный идентификатор данных, который сопоставляет дубликаты с незначительными отклонениями данных и сообщает о любых возможных опечатках. Это повысило точность бизнес-аналитики, полученной путем анализа данных.

3. Решение проблем с интеграцией и подготовкой данных

Платформы больших данных решают проблему сбора и хранения больших объемов данных разных типов, а также быстрого поиска данных, необходимых для использования в аналитике. Но процесс сбора данных все еще может быть очень сложным.

Целостность собранных корпоративных хранилищ данных зависит от их постоянного обновления. Для этого требуется поддерживать доступ к различным источникам данных и иметь специальные стратегии интеграции больших данных.

Некоторые предприятия используют озеро данных в качестве универсального репозитория для наборов больших данных, собранных из различных источников, не задумываясь о том, как эти разрозненные данные будут интегрированы. Различные области бизнеса, например, производят данные, которые важны для совместного анализа, но эти данные часто имеют различную базовую семантику, которая должна быть устранена. Не стоит выполнять специальную интеграцию для проектов, которая может потребовать много переделок. Для оптимальной окупаемости проектов с большими данными необходимо разработать стратегический подход к интеграции данных.

4. Эффективное и экономичное масштабирование систем больших данных

Предприятия могут тратить много денег на хранение больших данных, если у них нет стратегии использования этих данных. Они должны понимать, что аналитика больших данных начинается на этапе приема данных. Курирование корпоративных репозиториев данных также требует согласованных политик хранения для циклического удаления старой информации, особенно сейчас, когда данные, предшествовавшие пандемии COVID-19, часто уже не являются точными на современном рынке.

Таким образом, группы управления данными должны планировать типы, схемы и использование данных до развертывания систем больших данных. Но это не такая простая задача.

Часто бывает так, что вы начинаете с одной модели данных и расширяетесь, но быстро понимаете, что модель не соответствует вашим новым показателям и у вас внезапно появляется технический баг, который нужно разрешить.

Общее озеро данных с соответствующей структурой данных может упростить повторное использование данных, эффективно и с минимальными затратами. Например, файлы Parquet часто обеспечивают лучшее соотношение производительности и затрат, чем дампы CSV в озере данных.

5. Оценка и выбор технологий больших данных

Команды по управлению данными могут выбирать из широкого спектра технологий больших данных, и различные инструменты часто пересекаются с точки зрения их возможностей.

Командам, работающим с большими данными, нужно начать с рассмотрения текущих и будущих потребностей в данных из потоковых и пакетных источников, таких как мейнфреймы, облачные приложения и сторонние службы данных. Например, в число потоковых платформ корпоративного уровня, которые следует рассмотреть, входят Apache Kafka, Apache Pulsar, AWS Kinesis и Google Pub/Sub, которые обеспечивают беспрепятственное перемещение данных между облачными, локальными и гибридными облачными системами.

Затем командам следует приступить к оценке сложных возможностей подготовки данных, необходимых для использования механизмов ИИ, машинного обучения и других систем расширенной аналитики. Также важно спланировать, где данные могут обрабатываться. В обстоятельствах, когда задержка является проблемой, командам необходимо подумать о том, как запускать модели аналитики и ИИ на серверах и как упростить обновление моделей. Эти возможности необходимо сопоставить со стоимостью развертывания и управления оборудованием и приложениями, работающими локально, в облаке или на периферии.

6. Генерация бизнес-идей

Командам, работающим с данными более правильно сосредоточиться на технологии использования больших данных, а не на том, как их получить. Во многих случаях получается так, что гораздо меньше внимания уделяется тому, как обработать данные.

Создание ценных бизнес-идей из приложений больших данных в организациях требует рассмотрения таких сценариев, как создание отчетов на основе KPI, определение полезных прогнозов или предоставление различных типов рекомендаций.

Эти усилия потребуют участия специалистов в области бизнес-аналитики, статистиков и специалистов по данным, обладающих опытом в области машинного обучения. Объединение этой группы с командой инженеров по работе с большими данными может повысить окупаемость инвестиций в создание среды больших данных.

7. Найм и удержание работников с навыками работы с большими данными

Одной из самых больших проблем при разработке программного обеспечения для работы с большими данными является поиск и удержание работников, обладающих навыками работы с big data.

Эта тенденция, возникающая при работе с big data, вряд ли исчезнет в ближайшее время. В отчете S&P Global говорится, что облачные архитекторы и специалисты по данным являются одними из самых востребованных должностей в 2021 году. Одной из стратегий набора этих кадров является партнерство с компаниями, предоставляющими услуги по разработке программного обеспечения, которые уже создали резервы талантов.

Другая стратегия заключается в том, чтобы работать с HR для выявления и устранения различных проблем у текущих кадров в области больших данных.

Многие инициативы по работе с большими данными терпят неудачу из-за неверных ожиданий и ошибочных оценок, переносимых с начала проекта на конец. Профессиональная команда сможет оценить риски, оценить серьезность и решить множество проблем с большими данными.

Также важно создать культуру привлечения и удержания нужных талантов. Войтех Курка, технический директор поставщика платформы клиентских данных Meiro, сказал, что начал с иллюзии, что может решить любую проблему с данными с помощью нескольких сценариев SQL и Python в нужном месте. Со временем он понял, что может добиться гораздо большего, наняв профессиональных людей и продвигая безопасную корпоративную культуру, которая делает людей счастливыми и мотивированными.

8. Не позволяйте расходам выйти из-под контроля

Еще одна распространенная проблема больших данных — это то, что называется «cloud bill heart attack» - сердечный приступ облачных счетов. Многие предприятия используют существующие показатели потребления данных для оценки затрат на новую инфраструктуру больших данных, но это ошибка.

Одна из проблем заключается в том, что компании недооценивают явный спрос на вычислительные ресурсы, который создает расширенный доступ к более обширным наборам данных. Облако, в частности, облегчает платформам больших данных доступ к более обширным и детализированным данным, что может привести к увеличению затрат, поскольку облачные системы будут постоянно масштабироваться в соответствии с потребностями пользователей.

Использование модели ценообразования по запросу также может увеличить затраты. Хорошей практикой является выбор фиксированных цен на ресурсы, но это не решит проблему полностью. Хотя счетчик останавливается на фиксированной величине, некачественно написанные приложения могут по-прежнему потреблять ресурсы, что влияет на других пользователей и рабочие нагрузки. Итак, еще одна хорошая практика заключается в реализации детального контроля над запросами. На практике встречаются клиенты, у которых были написаны запросы на 10 000 долларов из-за плохо спроектированного SQL.

Также группам по управлению данными рекомендуется заранее поднимать вопрос о затратах при обсуждении с бизнес-группами и группами по разработке данных о развертывании больших данных. Бизнес несет ответственность за то, чтобы определить, чего он требует; разработчики программного обеспечения должны нести ответственность за предоставление данных в эффективном формате, а DevOps отвечает за обеспечение контроля и управления правильными политиками архивирования и темпами роста.

9. Управление средами больших данных

Проблемы управления данными становится все сложнее решать по мере того, как приложения для работы с большими данными разрастаются во все большем количестве систем. Эта проблема усугубляется тем, что новые облачные архитектуры позволяют предприятиям собирать и хранить все данные, которые они собирают, в неагрегированном виде. Защищенные информационные поля могут случайно проникнуть в самые разные приложения.

Без стратегии управления данными и средств контроля многие преимущества более широкого и глубокого доступа к данным могут быть потеряны.

Хорошей практикой является обращение с данными как с продуктом, с установленными с самого начала встроенными правилами управления. Заблаговременное вложение большего количества времени в выявление и устранение проблем управления большими данными упростит предоставление доступа к самообслуживанию, который не требует надзора за каждым новым вариантом использования.

10. Обеспечение понимания контекста данных и вариантов использования

Предприятия также склонны придавать слишком большое значение технологии, не понимая контекста данных и их использования в бизнесе.

Часто много усилий уходит на размышления об архитектуре хранения больших данных, структурах безопасности и приемке данных, но очень мало внимания уделяется привлечению пользователей и вариантам использования.

Команды должны подумать о том, кто и как будет детализировать данные. Те, кто ближе всего к бизнес-проблемам, должны сотрудничать с теми, кто ближе всего к технологиям, чтобы управлять рисками и обеспечивать надлежащее согласование. Также полезно разработать несколько простых сквозных вариантов использования, чтобы добиться первых результатов, понять ограничения и привлечь первых пользователей.

#bigdata #большиеданные