06:44
1,0×
00:00/06:44
560,9 тыс смотрели · 4 года назад
3 года назад
Параллельные вычисления: введение
Источник: Nuances of Programming Обычно дата-инженерам приходится получать данные из нескольких источников, а затем очищать их и агрегировать. Часто эти процессы необходимо применять на больших объемах данных. Сегодня мы рассмотрим одно из самых фундаментальных понятий в области вычислительных технологий и в частности дата-инженерии  —  параллельные вычисления. С их помощью современные приложения могут обрабатывать огромные объемы данных за относительно небольшие промежутки времени. Обсудим преимущества параллельных вычислений в целом, а также их недостатки...
1 месяц назад
Руководство по масштабированию сложных рабочих процессов Pandas с помощью Modin
Руководство по масштабированию сложных рабочих процессов Pandas с помощью Modin В этом руководстве мы рассмотрим Modin — мощную замену Pandas, которая использует параллельные вычисления для значительного ускорения рабочих процессов с данными. Импортируя `modin.pandas` как `pd`, мы преобразуем наш код Pandas в мощную систему распределённых вычислений. Наша цель — понять, как Modin работает с реальными операциями с данными, такими как `groupby`, `joins`, очистка и анализ временных рядов, при этом используя Google Colab. Мы сравниваем производительность каждой задачи со стандартной библиотекой Pandas, чтобы увидеть, насколько быстрее и эффективнее может быть Modin...