Источник: Nuances of Programming Обычно дата-инженерам приходится получать данные из нескольких источников, а затем очищать их и агрегировать. Часто эти процессы необходимо применять на больших объемах данных. Сегодня мы рассмотрим одно из самых фундаментальных понятий в области вычислительных технологий и в частности дата-инженерии — параллельные вычисления. С их помощью современные приложения могут обрабатывать огромные объемы данных за относительно небольшие промежутки времени. Обсудим преимущества параллельных вычислений в целом, а также их недостатки...
Когда пришло время обрабатывать много данных - так много, что вы находитесь в сфере больших данных - какие инструменты вы можете использовать для обработки данных, особенно в среде ноутбука? Pandas не очень хорошо справляется с большими данными, в отличие от двух других библиотек. Итак, какой из них лучше и быстрее? Недавно я написал две вводные статьи об обработке больших данных с помощью Dask и Vaex - библиотек для обработки больших, чем наборы данных памяти. Пока писал, у меня в голове возник...