? Обычно это выглядит так: Бизнес: «Аналитика готовится слишком долго». Аналитики: «Мы не можем напрямую работать с данными и ждем задач через инженеров». Инженеры: «Нельзя пускать аналитиков в центральное DWH — один неудачный запрос может положить систему». Такая ситуация встречается почти везде: в классических DWH Greenplum и Vertica, в современных системах вроде StarRocks и даже в lakehouse-инсталляциях на базе Spark. Причина — в архитектуре. Где возникает проблема Во многих аналитических СУБД есть общий компонент, через который проходит обработка запросов. Из-за этого появляются узкие места. Например: ✔️ В Greenplum любой запрос проходит через ноду-координатор. ✔️ В Vertica нагрузка ложится на глобальный каталог. ✔️ В Spark и StarRocks один некорректный запрос может занять все вычислительные слоты. В результате тяжелый запрос начинает тормозить работу всей системы. Ресурсные группы, квоты и другие механизмы лишь ограничивают ущерб, но не устраняют саму причину — конкуре
Почему аналитика в компаниях часто работает медленно — даже если ресурсов достаточно
ВчераВчера
1
2 мин