Найти тему

Vertica в Машинном обучении простыми словами

Фото: Andreas Schantl / Unsplash
Фото: Andreas Schantl / Unsplash

Vertica – база данных, хранящая информацию в колонках. По сравнению со строковыми Системами управления базами данных (DBMS), колоночная БД сокращает количество дисковых операций ввода-вывода, что делает ее идеальной для интенсивного чтения. Vertica читает только те столбцы, которые необходимы для ответа на запрос.

Основные функции Vertica:

  • Колоночное (столбчатое) хранилище и исполнение запросов: обеспечивается значительный прирост производительности, операций ввода-вывода, когда речь идет об аналитических рабочих нагрузках. Запрос считывает только те столбцы, которые необходимы для ответа на запрос.
  • Загрузка и выполнение запросов в режиме реального времени благодаря высокому уровню параллелизма запросов и возможности одновременной загрузки новых данных в систему Vertica может загружать данные в 10 раз быстрее, чем традиционные базы данных с построчным хранилищем.
  • Расширенная аналитика – набор расширенной аналитики в базе данных позволяет проводить аналитические вычисления ближе к данным. Это обеспечивает немедленные результаты из одного места без необходимости извлечения данных из отдельной среды.
  • Дизайн баз данных и инструменты администрирования — эти функции позволяют настраивать и контролировать Vertica с минимальными усилиями администратора.
  • Усовершенствованное сжатие: агрессивное кодирование и сжатие позволяют Vertica значительно повысить аналитическую производительность за счет сокращения ресурсов ЦП, памяти и дисковых операций ввода-вывода во время обработки. Vertica может уменьшить исходный размер данных на 90%, до 1/10 исходного размера, без потери информации или точности.
  • Структурированные и полуструктурированные данные: в дополнение к традиционным структурированным таблицам базы данных Vertica предоставляет гибкие таблицы, которые позволяют загружать и анализировать полуструктурированные данные, например данные в формате JSON.
  • Надежное и масштабируемое решение для параллельной обработки, обеспечивающее активную избыточность, автоматическую репликацию, аварийное переключение и восстановление.
  • Развертывание в любом месте: запуск на физическом оборудовании, расположенном в вашем собственном (или совместно расположенном) центре обработки данных. Или запускайте на виртуальном оборудовании свои собственные виртуальные хосты или на основных облачных платформах (AWS, Azure и Google Cloud).
  • Соединения с озерами данных из Apache Hadoop и Kafka, а также из многих других систем, используя стандартные клиентские библиотеки, такие как JDBC и ODBC.
  • Управление и мониторинг: консоль управления на основе браузера позволяет создавать, импортировать и управлять базами данных Vertica с помощью удобного графического интерфейса.
  • Динамическое масштабирование вашего кластера в соответствии с вашей рабочей нагрузкой, чтобы масштабировать кластер базы данных, чтобы справиться с возросшими рабочими нагрузками, или уменьшить их.

Автор оригинальной статьи: vertica.com