Статья подготовлена для студентов курса «Data Engineer» в образовательном проекте OTUS. В основе современных аналитических СУБД и распределённых систем обработки данных лежит ряд ключевых принципов. Если Инженер Данных сможет постичь их суть и успешно использовать, то он постигнет дзен, обретёт спокойствие и уверенность в завтрашнем дне. Эти принципы формулируются предельно просто: • параллельная обработка; • оптимальное хранение данных (согласно сценариям использования); • управление ресурсами и группами пользователей; • резервирование и репликация данных; • мониторинг производительности и своевременное устранение проблем. Ниже приведены распространённые способы нарушить эти принципы и тем самым свести преимущества таких систем к нулю. 1. Лишить возможности производить вычисления параллельно Всё равно, что отказаться от основного принципа работы с большими данными. Чтобы обеспечить параллельную обработку, данные должны быть распределены равномерно между узлами (нода
Лучшие способы убить производительность аналитической СУБД
4 ноября 20194 ноя 2019
71
3 мин