- Акции Alteryx показали низкие результаты за последние 12 месяцев, во многом из-за общей слабости рынка аналитического программного обеспечения.
- Переход данных в облако и снижение важности парадигмы ETL потенциально ослабляют конкурентные позиции Alteryx.
- Alteryx необходимо разработать тесно интегрированную комплексную платформу обработки данных и собственное облачное решение, чтобы оставаться конкурентоспособными.
- Рынок платформ для обработки данных остается фрагментированным, что дает возможность тем компаниям, которые могут стать лидерами.
Альтерикс ( AYX) показала плохие результаты за последние 12 месяцев, что справедливо заставило многих усомниться в перспективах компании. Общая слабость на рынке аналитического программного обеспечения и ухудшение конкурентного позиционирования Alteryx - это проблемы, которые необходимо рассматривать отдельно. Рассмотрим, как продукты Alteryx позиционируются на рынке, и проблемы, с которыми они могут столкнуться по мере роста конкуренции и тяготения данных к облаку.
Клиенты рассматривают аналитическое программное обеспечение как несущественные расходы, из-за чего многие компании, выпускающие аналитическое программное обеспечение, плохо работают. Эта общая слабость рынка была основной причиной низкой производительности Alteryx за последний год, хотя отсутствие разработки продуктов и медленный переход компании в облако вызывают беспокойство.
Рынок
Существует большая путаница в отношении таких терминов, как наука о данных, аналитика данных, машинное обучение (ML) и искусственный интеллект (AI). Эти термины часто относятся к одним и тем же вещам и не проливают света на лежащий в основе процесс. Платформа для анализа данных может рассматриваться как программное обеспечение, которое помогает пользователям разрабатывать и управлять конвейером, который преобразует необработанные данные в полезные идеи и обычно включает в себя следующее:
- Прием данных
- Подготовка данных
- Исследование данных
- Функциональная инженерия
- Создание и обучение модели
- Тестирование модели
- Развертывание
- Мониторинг
- Обслуживание
- Сотрудничество
Платформы для анализа данных, вероятно, будут отличаться следующими особенностями:
- AutoML
- MLOps
- Объяснимость
- Этика
- Согласие
- Дополненный ML
- Функциональная инженерия
- Подготовка данных
- Совместная работа с данными
Платформы для анализа данных также могут различаться по целевым пользователям, таким как разработчики приложений, бизнес-аналитики или специалисты по данным. Программное обеспечение с визуальным интерфейсом не конкурирует с программным обеспечением, ориентированным на код, поскольку оно обращается к другому классу пользователей. Гражданские специалисты по данным могут занимать такие должности, как бизнес-аналитик, бизнес-аналитик, инженер данных и разработчик приложений, и часто работают в сотрудничестве с специалистами по данным.
Специалисты по обработке данных, вероятно, предпочтут кодировать (Python, R и т. Д.) Свои собственные рабочие процессы в области науки о данных, тогда как гражданские специалисты по данным, скорее всего, будут комфортно создавать модели с помощью интерфейса перетаскивания. Гражданские специалисты по данным также с большей вероятностью будут полагаться на AutoML, чтобы направлять их в процессе анализа, хотя некоторые специалисты по анализу данных могут также предпочесть расширенный подход для повышения производительности.
В полной мере ценность науки о данных не может быть реализована, если модели не встроены в бизнес-процессы и не поддерживаются в течение долгого времени, что является целью MLOps. MLOps также включает в себя ключевые функции, такие как обнаружение смещения, каталоги, управление, объяснимость и анализ воздействия на бизнес. Функциональность MLOps имеет решающее значение для обеспечения того, чтобы модели оставались актуальными с течением времени по мере изменения потребностей, приоритетов и условий бизнеса.
В прошлом эти типы функций, возможно, считались продвинутыми, но все чаще становятся ставками на стол. Многие компании внедряют эту функциональность через партнерские отношения или приобретения, и победителями на рынке, вероятно, станут те, кто сможет создать связное решение с надежной функциональностью на протяжении всего жизненного цикла, хотя решения могут отличаться изощренностью целевых пользователей.
Модуляризация также потенциально может стать все более важной тенденцией на рынке платформ для обработки данных. Конкурирующие платформы в разной степени включают инструменты собственной разработки, инструменты с открытым исходным кодом и инструменты от партнеров. Эффективная модульность требует интеграции различных данных и инструментов в единое решение для анализа данных.
В ближайшие десятилетия важность аналитики будет расти по мере того, как объем данных, доступных для анализа, растет, а инструменты, используемые для анализа, улучшаются. Однако остаются узкие места, препятствующие внедрению во многих организациях. Например, 62% аналитиков в настоящее время зависят от других сотрудников своей организации в выполнении хотя бы некоторых шагов в их аналитическом процессе. Согласно опросу, проведенному Appen, большинство организаций считают, что искусственный интеллект критически важен для их бизнеса, но почти половина говорят, что их организация отстает в своем пути к ИИ.
По оценкам Alteryx, 60 миллиардов долларов в год тратятся на аналитиков, выполняющих повторяющуюся ручную работу с электронными таблицами. Средний аналитический процесс использует входные данные из 6 различных источников данных, использует 4-7 инструментов для выполнения операций с данными и дает 7 выходных данных. Существует значительная потребность в инструментах, которые упрощают, автоматизируют и ускоряют эту деятельность, а также способствуют сотрудничеству и уменьшают зависимость гражданских специалистов по данным от экспертов по данным. Управление данными и нехватка квалифицированного персонала - два основных препятствия на пути реализации инициатив в области ИИ, проблемы, которые решаются платформами обработки данных.
Хотя ИИ является вековой тенденцией, и бюджеты продолжают расти, COVID-19 создал неопределенность, возможно, временно задерживая расходы на инициативы в области ИИ.
Для многих организаций пандемия, похоже, повысила актуальность инициатив в области ИИ, но для многих других она отсрочила либо их стратегический график их способности развертывать проекты ИИ. 41% участников опроса заявили, что пандемия ускорила их стратегию искусственного интеллекта, в то время как для 31% она вызвала задержки. 36% участников опроса заявили, что пандемия ускорила развертывание ИИ, а у 35% она вызвала задержки.
Во время пандемии наблюдалось явное сокращение найма на работу, требующую знания данных и / или компетентности в области искусственного интеллекта, но с момента начала внедрения вакцины эта тенденция, похоже, изменилась. Это может указывать на ускорение расходов на аналитическое программное обеспечение во второй половине 2021 года. Интересно отметить, что количество объявлений о вакансиях, в которых упоминается машинное обучение, увеличилось больше, чем тех, которые упоминают науку о данных, аналитику данных и бизнес-аналитику. Это может указывать на то, что инициативы в области науки о данных созревают и используют более сложные инструменты, или это может быть просто эволюция языка, используемого HR, как объявления о вакансиях.
Хотя рост расходов на аналитику, похоже, был приостановлен во время пандемии, этот большой и растущий рынок остается недостаточным. Решение Alteryx без кода больше нацелено на бизнес-сегмент, где простота использования более ценна, чем производительность или гибкость.
По оценкам Alteryx, в 2018 году 47 миллионов пользователей электронных таблиц работали над расширенной подготовкой данных и аналитикой, что представляет собой возможность на 24 миллиарда долларов США . Сомнительно, однако, какая часть возможностей электронных таблиц может быть реализована такой платформой, как Alteryx. Многие из этих пользователей будут искать недорогие или бесплатные решения, которые, вероятно, будут подходить для многих приложений, а не дорогие инструменты, подобные тем, которые предлагает Alteryx.
По оценкам Gartner, выручка от программного обеспечения платформы Data Science and Machine Learning (DSML) в 2018 году составила 3,2 миллиарда долларов США , увеличившись на 19% в годовом исчислении. Программное обеспечение платформы DSML - это подсегмент рынка бизнес-аналитики (BI), который составляет 21,2 миллиарда человек. Однако разделение между DSML и BI несколько произвольно и, вероятно, в будущем станет все более размытым. Поставщики бизнес-аналитики улучшают свои аналитические возможности, а поставщики науки о данных добавляют более надежные возможности преобразования и визуализации данных. Вряд ли Alteryx точно вписывается в эту сегментацию, что может вызвать путаницу в отношении их конкурентного положения. С точки зрения функциональности Alteryx - это платформа для анализа данных, но с точки зрения целевого рынка это больше платформа бизнес-аналитики.
Архитектура
Парадигмы в вычислениях со временем меняются, что обычно приводит к устареванию старых инструментов. Действующим компаниям часто бывает трудно оставаться конкурентоспособными по мере изменения рынков, даже если у них есть необходимый опыт, потому что их продукты должны поддерживать обратную совместимость, что может привести к снижению производительности и усложнению усилий по разработке. Платформы для анализа данных теперь сталкиваются с изменениями, связанными с тем, как данные хранятся и доступны, а также как можно эффективно масштабировать аналитику.
Парадигма извлечения, преобразования и загрузки (ETL) существует с 1970-х годов и относится к процессу копирования данных в целевую систему, которая представляет данные иначе, чем исходная. В ETL необработанные данные недоступны в хранилище данных, потому что преобразование происходит перед загрузкой. ETL почти исключительно использует реляционные базы данных и лучше всего подходит для структурированных данных и небольших и средних объемов данных.
Извлечение, загрузка и преобразование (ELT) - это процесс, при котором необработанные данные загружаются в хранилище данных, и в сохраненных данных происходят преобразования. ELT полезен для обработки больших наборов данных и лучше подходит для неструктурированных данных, поскольку аналитика, применяемая к неструктурированным данным, обычно использует подход «схема при чтении» в отличие от традиционной «схемы при записи», используемой реляционными базами данных. Преобразование перед загрузкой заставляет аналитиков заранее прогнозировать модель данных. Специалисты по данным обычно предпочитают ELT, и в основном он использует базу данных Hadoop или NoSQL.
Выбор между ETL и ELT в значительной степени зависит от типа и объема обрабатываемых данных и типа выполняемого анализа. ETL с большей вероятностью будет использоваться в приложениях типа бизнес-аналитики, тогда как ELT с большей вероятностью будет использоваться в более продвинутых приложениях машинного обучения. Alteryx часто используется как часть рабочих процессов ETL, и по мере того, как ELT становится все более распространенным, это может ослабить ценностное предложение Alteryx.
Программное обеспечение также все больше переходит от локальных развертываний к облачным развертываниям, которые могут быть выгодными с точки зрения стоимости, доступности, масштабируемости и производительности. Аналитика и данные также находятся в процессе перехода в облако, хотя для некоторых компаний выбор среды развертывания может просто сводиться к тому, где в настоящее время находятся данные. Небольшие компании могут посчитать развертывание облака более рентабельным, но данные, хранящиеся в облаке, могут быть менее безопасными, а в некоторых случаях возникают проблемы с соблюдением нормативных требований. Поставщики SaaS продолжают отвоевывать долю рынка у традиционных локальных компаний-разработчиков программного обеспечения в широком диапазоне категорий, и разумно ожидать, что в будущем это будет все больше и больше происходить в отношении программного обеспечения для анализа данных.
Конкуренты
Для анализа данных доступно множество инструментов с открытым исходным кодом и проприетарных инструментов, от специализированных статистических пакетов до общих языков программирования с оптимальным инструментом, который обычно зависит от конкретного варианта использования и пользователя. Alteryx пытается обеспечить присутствие на протяжении всего жизненного цикла науки о данных, что ставит ее в конкуренцию ряду компаний, хотя Alteryx в первую очередь ориентирована на гражданских специалистов по данным, а не на экспертов по данным.
Текущие лидеры рынка - это, как правило, старые компании, которые с большей вероятностью будут основаны на более старых архитектурах и предназначены для локального развертывания. Есть ряд новых компаний, которые быстро растут и представляют прямую угрозу для Alteryx, например, Databricks, DataRobot и Dataiku.
Существует активное сообщество машинного обучения, которое продолжает разрабатывать бесплатные библиотеки (Keras, Tensorflow, Pytorch). Это значительное конкурентное преимущество для инструментов с открытым исходным кодом, поскольку они остаются актуальными по мере развития современных алгоритмов. Кроме того, многие пользователи платформ для анализа данных либо уже владеют технологиями с открытым исходным кодом, либо могут легко изучить их. Решения с открытым исходным кодом стали повсеместными в учебных программах университетов по науке о данных, помогая создавать активную базу пользователей и обеспечивать их актуальность в будущем. Коммерческие предложения могут интегрироваться с открытым исходным кодом для использования этих решений без необходимости воссоздания определенных возможностей, и это может помочь компаниям избежать таких проблем, как совместимость и неопределенные результаты для проектов разработки.
Alteryx применяет относительно закрытый подход к своему программному обеспечению и нацелен на гражданских специалистов по данным, что делает его похожим на программное обеспечение Tableau и TIBCO. Alteryx стремится стать сквозной платформой и наращивает свои возможности для поддержки этого. Это все больше ставит Alteryx в конкуренцию с такими компаниями, как KNIME, RapidMiner, DataRobot и Dataiku.
Похоже, что на рынке наблюдается общая тенденция к интегрированным решениям, а это означает, что точечным решениям может быть сложно выжить в качестве автономных продуктов в долгосрочной перспективе. Это поднимает вопрос о том, какая часть конвейера обработки данных станет центральным компонентом, вокруг которого будут объединяться другие (сбор данных, хранение, аналитика, отчетность). Решения для баз данных лучше всего подходят для предложения интегрированных решений и, скорее всего, станут победителями в долгосрочной перспективе. В этом случае платформам для анализа данных потребуется наладить партнерские отношения с поставщиками хранилищ данных или разработать собственные решения для хранения данных. В противном случае они рискуют превратиться в взаимозаменяемую товарную услугу.
Tableau
Tableau - это инструмент самообслуживания для аналитики, который был приобретен Salesforce ( CRM ) в 2019 году. Tableau использует интерфейс перетаскивания, и его основная сила - визуализация. Таким образом, их программное обеспечение можно рассматривать как дополнение к Alteryx, а также как прямого конкурента. Salesforce стремится предоставить аналитическую платформу с использованием Tableau вместе со своим решением Einstein.
Альтерикс
Alteryx делает акцент на том, чтобы сделать науку о данных доступной для гражданских специалистов по данным. Они пытаются повысить продуктивность бизнес-аналитиков, объединив конвейер анализа фрагментированных данных в одну службу. Конечная цель Alteryx - сделать свою платформу такой же повсеместной на рабочем месте, как электронные таблицы сегодня, хотя это сомнительно, учитывая высокую стоимость их продукта.
Alteryx имеет сильные позиции в сфере розничной торговли, услуг, связи и финансовых услуг, и клиентам, как правило, нравится платформа за ее простоту использования. Однако клиенты критиковали продукт за его высокую стоимость и сложные условия лицензирования. Учитывая открытый исходный код и другие недорогие варианты на рынке, высокая цена Alteryx может ограничить более широкое использование в организациях.
Функциональность платформы Alteryx включает доступ к различным источникам данных, очистку и подготовку данных, а также выполнение различных анализов. Программное обеспечение призвано заменить традиционные инструменты, предлагая:
- Легкость использования
- Скорость
- Сложность анализа
- Интуитивно понятный пользовательский интерфейс с визуальным рабочим процессом
Платформа Alteryx включает:
- Дизайнер : продукт для подготовки, смешивания и аналитики данных, развертываемый в облаке и локально
- Сервер : безопасный и масштабируемый продукт для совместного использования и запуска аналитических приложений
- Подключение : используется для каталогизации данных, позволяя обнаруживать и сотрудничать
- Продвижение : позволяет развертывать, хранить и управлять аналитическими моделями в централизованной системе, чтобы их можно было интегрировать во внешние приложения.
Alteryx - один из самых старых продуктов в этой области, получивший относительно широкое распространение, и имеет большую и заинтересованную базу пользователей. Сообщество Alteryx предоставляет клиентам, партнерам и сотрудникам Alteryx платформу для обмена знаниями, что потенциально делает продукт Alteryx более привлекательным для существующих пользователей.
Платформа Alteryx может напрямую интегрироваться с решениями для автоматизации роботизированных процессов (RPA) и корпоративными приложениями для автоматизации работы конвейеров машинного обучения и бизнес-процессов. Alteryx имеет ограниченные возможности в отношении анализа потоковых данных в реальном времени для IoT, хотя Alteryx может надеяться добавить эту возможность в будущем за счет приобретения.
В настоящее время Alteryx занимается внутренними инновациями в таких областях, как вспомогательное моделирование, автоматизация и совместная работа, а также разрабатывает собственный облачный продукт. В последние годы Alteryx также активно занималась приобретением, пытаясь ускорить рост и укрепить конкурентные позиции компании. В 2017 году они приобрели Yhat, поставщика данных, специализирующегося на развертывании моделей и управлении ими. В апреле 2019 года Alteryx приобрела ClearStory Data, поставщика решений, обеспечивающих автоматический анализ сложных и неструктурированных данных на крупномасштабных платформах обработки данных, таких как Apache Spark. Alteryx приобрела Feature Labs в октябре 2019 года. Feature Labs автоматизирует проектирование функций, создание приложений искусственного интеллекта и процессы подготовки данных, чтобы помочь повысить точность модели и общую эффективность процессов.
Согласно Gartner, Alteryx обладает сильными способностями к выполнению, но не имеет видения. Эта точка зрения, вероятно, отражает тот факт, что Alteryx создала качественный продукт, который получил широкое распространение, но они не спешили добавлять функциональность и реализовывать инициативы, такие как облачное решение.
Dataiku
Dataiku предоставляет аналитическую платформу, которая больше ориентирована на машинное обучение, чем на предложения Alteryx. У них есть инструменты, предназначенные для руководителей аналитиков, специалистов по данным, бизнес-аналитиков и инженеров данных, а не только для гражданских специалистов по данным. Их основной продукт - Data Science Studio (DSS) , ориентированный на междисциплинарное сотрудничество и простоту использования, позволяющий пользователям быстро запускать проекты машинного обучения. Dataiku также ориентирован на поддержку открытого исходного кода и имеет активное сообщество пользователей, где пользователи могут предоставлять и обмениваться надстройками, расширяющими стандартные предложения Dataiku.
В настоящее время в Dataiku работает более 400 человек, она обслуживает 300 клиентов и имеет 30 000 пользователей по всему миру. Dataiku утроила выручку в 2017 году и привлекла финансирование на сумму 1,4 миллиарда в декабре 2019 года .
Dataiku усиливает возможности в отношении масштабируемости, управления и расширенного машинного обучения. Они улучшили свою поддержку аналитики графиков и временных рядов, но, похоже, не уделяют приоритетного внимания возможностям моделирования и оптимизации. По сравнению с конкурентами, Dataiku имеет невысокий диапазон вариантов использования и недостатки в автоматизации и потоковой передаче данных, что ограничивает его использование в IoT и приложениях реального времени.
Программное обеспечение TIBCO
TIBCO, возможно, наиболее известна своим программным обеспечением для бизнес-аналитики и визуализации Spotfire, но в настоящее время они находятся в процессе создания платформы сквозной аналитики за счет приобретений:
- корпоративная отчетность и современная платформа бизнес-аналитики (Jaspersoft и Spotfire)
- платформа описательной и прогнозной аналитики (Statistica и Alpine Data)
- потоковая аналитика (StreamBase Systems)
- управление метаданными (Orchestra Networks)
- данные в памяти (SnappyData).
TIBCO предлагает надежные решения для Интернета вещей и является одной из немногих платформ для обработки данных, поддерживающих пограничное машинное обучение. Текущие недостатки платформы включают MLOps, интерпретируемый AI и расширенный ML.
KNIME
KNIME предлагает бесплатную платформу с открытым исходным кодом, которая охватывает большую часть функций с помощью двух дополнительных продуктов:
KNIME Analytics Platform - программное обеспечение с открытым исходным кодом для сбора, преобразования и визуализации данных и выполнения моделирования. Платформа KNIME Analytics имеет более 100 000 пользователей по всему миру.
KNIME Server - корпоративное программное обеспечение для совместной работы в команде, автоматизации, управления и развертывания рабочих процессов обработки данных в виде аналитических приложений и сервисов. Стоимость сервера KNIME составляет 29 000 долларов США (из расчета 5 пользователей и 8 ядер) для средних пользователей и 52 000 долларов США (из расчета 5 пользователей и 8 ядер) для крупных пользователей.
В 2017 году KNIME добавила облачные версии своей платформы для AWS и Microsoft Azure, улучшила функции качества данных и расширила их возможности глубокого обучения. KNIME имеет клиентов в широком спектре отраслей, но особенно сильна в сферах биологических наук, государственного управления и сферы услуг. Заказчикам нравится соотношение затрат и выгод KNIME, что является важным соображением, поскольку многим пользователям будет сложно оправдать стоимость платформы, подобной Alteryx.
Продукты KNIME высоко ценятся, а их обширная база пользователей дает им прочную связь с сообществом специалистов по науке о данных. Это сообщество полностью интегрировано с KNIME Hub, который представляет собой открытую торговую площадку с возможностью поиска, содержащую чертежи и лучшие практики для KNIME. KNIME имеет более низкую видимость и медленный рост доходов по сравнению с другими поставщиками из-за ограниченного количества обновлений коммерческой платформы. Производительность может быть проблемой для KNIME, особенно с большими наборами данных, но они пытаются решить эту проблему.
KNIME может быть трудно идти в ногу с другими платформами, которые активно разрабатывают функции и приобретают новые продукты. Это может быть одной из причин того, что оценка Gartner способности KNIME к выполнению задач в последние годы продолжает снижаться.
Databricks
Databricks была основана в 2013 году создателями Apache Spark, Delta Lake и MLflow и берет свое начало в академических кругах и сообществе разработчиков ПО с открытым исходным кодом. Databricks по всему миру используют более 5000 организаций, среди инвесторов компании Microsoft, Andreesen Horowitz и Blackrock. Databricks объединяет инженерию данных, науку о данных и аналитику на единой платформе, чтобы группы обработки данных могли быстрее сотрудничать и внедрять инновации. Databricks использует сообщество разработчиков ПО с открытым исходным кодом и собственный опыт Spark, чтобы предоставить платформу, легко доступную для многих. Databricks подчеркивает простоту автоматизации и масштабируемости инфраструктуры.
Платформа Databricks поддерживает весь жизненный цикл аналитики и предоставляет собственные функции для обеспечения безопасности, надежности, эксплуатации и производительности. Обработка данных использует инфраструктуру автоматического масштабирования и обеспечивается Apache Spark для обеспечения высокой производительности. Delta lake обеспечивает надежный и масштабируемый уровень хранения.
Databricks добилась быстрого внедрения продуктов и роста доходов, особенно в корпоративном секторе. Тем не менее, они сильно ориентированы на техническую аудиторию, что затрудняет внедрение бизнес-аналитиков и гражданских специалистов по данным. Многие клиенты выбирают Databricks, потому что их интересуют варианты выполнения Apache Spark, а не потому, что они искали платформу для анализа данных. Компании, которые не заинтересованы в Spark, часто не рассматривают Databricks как вариант платформы для анализа данных. У Databricks нет общедоступного локального предложения.
H20
H20 - лидер в области машинного обучения с открытым исходным кодом, цель которого - демократизировать науку о данных. Платформа H20 используется сотнями тысяч специалистов по данным в более чем 20 000 организаций по всему миру и пользуется популярностью как в сообществах R, так и в сообществах Python. H20 поддерживает наиболее широко используемые алгоритмы статистического и машинного обучения и предоставляет лучшие в отрасли функции autoML.
Их платформа включает в себя:
- H2O Flow - основной компонент
- H2O пар
- Газированная вода H2O - для интеграции Spark
- H2O Deep Water - обеспечивает возможности глубокого обучения
- H2O AI без водителя
H2O Driverless AI упрощает внедрение, предлагая дополнения во многих областях. Он обеспечивает расширенную разработку функций, включая функции обработки естественного языка для преобразования текстовых атрибутов в функции. Аналогичным образом можно автоматизировать выбор модели и настройку гиперпараметров.
Сильные стороны H20 включают производительность и ориентацию компании на такие тенденции, как расширенная наука о данных и объяснимость. Тем не менее, пользовательский интерфейс был подвергнут критике, и существует ограниченная интеграция между H2O Driverless AI и платформой с открытым исходным кодом. Некоторые аспекты доступа к данным и подготовки данных также могут быть улучшены. И коммерческие предложения, и предложения с открытым исходным кодом доступны во всех основных облаках.
H2O работает с существующей инфраструктурой больших данных, «голым железом» и существующими кластерами Hadoop или Spark. Он может принимать данные напрямую из HDFS, Spark, S3, Azure Data Lake или любого другого источника данных в свое распределенное хранилище ключей и значений в памяти. Сценарии использования платформы H20 включают расширенную аналитику, обнаружение мошенничества, управление претензиями и цифровую рекламу.
DataRobot
DataRobot - это корпоративная платформа искусственного интеллекта, которая предлагает автоматизацию и производительность для всех рабочих процессов обработки данных, позволяя ученым работать эффективно, а гражданским специалистам по данным - легко создавать модели. DataRobot предоставляет возможности, полезные для самых разных ролей, включая разработчиков, специалистов по обработке данных, статистиков и бизнес-аналитиков.
DataRobot продолжает расширять свои сквозные возможности для широкого круга пользователей. У них также есть широкая сеть партнерств и интеграций, которая продолжает расти, с новым сайтом сообщества пользователей, запущенным в октябре 2019 года для облегчения взаимодействия между пользователями и сообществом DataRobot.
DataRobot в последние годы активно занимался приобретениями, чтобы расширить функциональность своих платформ. Эти приобретения включают:
- Cursor - платформа для совместной работы с данными в феврале 2019 года;
- ParallelM - платформа MLOps в июне 2019 г.
- Paxata - провайдер подготовки данных в декабре 2019 г.
- Nutonian - моделирование расширенных временных рядов в 2017 году
- Nexosis - автоматизированное машинное обучение в 2018 году
DataRobot завоевал прочную позицию на рынке с момента выхода на рынок в 2015 году, добившись быстрого роста доходов, количества пользователей и всемирного признания имени. Платформу DataRobot приняла треть компаний из списка Fortune 50 .
DataRobot многими воспринимается как базовый инструмент для неспециалистов, и некоторые клиенты выразили обеспокоенность по поводу способности DataRobot работать со сложными моделями. В некоторых случаях клиенты переходили на другие платформы по мере того, как их потребности росли в масштабах всего предприятия. Затраты на лицензирование исключили DataRobot из рассмотрения для некоторых организаций и предотвратили широкое развертывание в других организациях.
RapidMiner
RapidMiner обеспечивает баланс между простотой использования и сложностью науки о данных. Простота использования высоко ценится гражданами, занимающимися обработкой данных, а его функциональные возможности в области науки о данных, включая открытость для открытого исходного кода и функциональные возможности, делают его привлекательным для опытных специалистов по данным. Платформа подчеркивает основные функции науки о данных и скорость разработки и выполнения моделей.
RapidMiner Studio - это основной инструмент для разработки моделей, доступный в бесплатной и коммерческой версиях. RapidMiner Server - это корпоративное расширение, предназначенное для развертывания и обслуживания моделей, а также для облегчения совместной работы. Портфель поддержки RapidMiner также включает RapidMiner Real-Time Scoring и RapidMiner Radoop. RapidMiner Turbo Prep, RapidMiner Auto Model и RapidMiner Automated Model Ops - это расширенные функции платформы, в то время как RapidMiner AI Cloud предлагает варианты развертывания на основе облака. RapidMiner продолжает внедрять новые возможности повышения производительности и производительности, такие как приобретение Radoop (для работы со средами больших данных) и развитие рынка RapidMiner.
RapidMiner поддерживает широкий спектр технологий (R, Python, Scala, Java, MATLAB, Octave, HiveQL, Pig, SQL и Groovy). Для глубокого обучения; Интегрированы Keras, TensorFlow, Eclipse Deeplearning4j и Theano. RapidMiner также позволяет использовать контейнеры с Docker и Kubernetes для прозрачного запуска и масштабирования моделей.
У RapidMiner более 380 000 пользователей, но лишь немногие из них платят клиентам. У них медленный рост по сравнению с конкурентами, что может быть результатом приоритета прибыльности над ростом.
SAS
SAS - один из старейших и крупнейших игроков в сфере аналитики. У SAS более 83 000 клиентов , самая большая экосистема пользователей и партнеров и высокий уровень проникновения на рынок во всех вертикалях. Их решения нацелены на статистику, аналитику и моделирование, но, поскольку они проприетарны, им нужно научиться круто. SAS предлагает множество программных продуктов для аналитики и обработки данных, поддерживающих статистику, машинное обучение, текстовую аналитику, прогнозирование, анализ временных рядов, эконометрику и оптимизацию. Несмотря на то, что SAS является лидером, компания SAS сталкивается с угрозами на многих фронтах со стороны других крупных поставщиков, созревающих прорывов и решений с открытым исходным кодом, особенно из-за высокой стоимости их продуктов. Однако SAS развивается вместе с SAS Visual Analytics и взаимодействует с инструментами с открытым исходным кодом R, Python и Hadoop.
SAS традиционно предоставляет инструменты для специалистов, а не для гражданских специалистов по данным, но они представляют продукты Visual Analytics и Visual Statistics с более простыми в использовании пользовательскими интерфейсами. Они также внедрили автоматизированные предложения по качеству и подготовке данных и предлагают визуализации, основанные на распределении переменных и других показателях. Пакет Visual Analytics имеет облачную архитектуру, которая более открыта, чем предыдущие архитектуры SAS, и делает аналитику более доступной для широкого круга пользователей. SAS Factory Miner помогает командам по анализу данных сотрудничать с помощью крупномасштабного автоматизированного машинного обучения.
SAS изо всех сил пыталась предложить интегрированную и открытую платформу, поскольку фокус рынка сместился в сторону программного обеспечения с открытым исходным кодом и гибкости. Считается, что SAS не поддерживает инструменты с открытым исходным кодом, и их многопрофильный подход может сбивать с толку. Также существует мнение о высокой стоимости лицензирования.
MathWorks
MathWorks - это частная компания, предлагающая платформу MATLAB, которая традиционно ориентирована на инженерное дело, науку и высокотехнологичные финансовые варианты использования. MATLAB обладает высокой видимостью в области расширенной аналитики, большой установленной базой и глубокими отношениями с клиентами, что делает его сильным конкурентом. Однако, учитывая относительно крутую кривую обучения проприетарных инструментов MATLAB, он не является прямым конкурентом Alteryx. Области для улучшения включают MLOps и возможности интерпретации.
Вывод
Такой инструмент, как SAS, требует значительного времени для изучения, и когда опытные пользователи будут отказываться от перехода. Удобные для пользователя инструменты визуальной аналитики снижают привязку к категории, особенно те, которые могут взаимодействовать с инструментами с открытым исходным кодом. Это увеличивает вероятность того, что лучший инструмент победит, и увеличивает ценовую конкуренцию. Тем не менее, блокировка все равно может возникнуть, поскольку, как только компания построит конвейеры обработки данных на платформе, она, вероятно, не захочет менять платформы, если в этом нет значительного преимущества.
Казалось бы, будущее за облачными инструментами, способными обрабатывать огромные объемы данных и позволяющими легко сотрудничать как экспертам, так и гражданским специалистам по данным. В долгосрочной перспективе компании, занимающиеся хранением данных, имеют хорошие возможности для дальнейшей интеграции, если они того пожелают. Платформы для анализа данных должны будут предлагать сквозные платформы с дополнительными инструментами, такими как autoML, чтобы оставаться актуальными. Даже в этом случае платформы для обработки данных могут столкнуться с ценовым давлением в будущем, поскольку конкуренция на рынке продолжает расти.
Хотя у Alteryx были трудные 12-18 месяцев, и остаются вопросы об актуальности компании в мире, где доминирует облачная аналитика, основанная на парадигме ELT, данные о найме могут указывать на то, что трудности Alteryx преувеличиваются. Все больше объявлений о вакансиях упоминают Alteryx как необходимую компетенцию, и Alteryx продолжает оставаться более часто необходимой компетенцией, чем Databricks.
Текущая цена акций Alteryx, похоже, основана на предположении о продолжающемся ухудшении показателей и конкурентной позиции, что может быть излишне пессимистичным. Если Alteryx сможет продолжать наращивать свои сквозные возможности и успешно запустить облачное решение, у них все равно будут хорошие возможности для успеха в будущем.