В этом руководстве мы рассмотрим, как использовать Daft в качестве высокопроизводительного механизма обработки данных на языке Python для создания комплексного аналитического конвейера. Мы начнём с загрузки реального набора данных MNIST, затем будем последовательно преобразовывать его с помощью UDF, разработки функций, агрегации, объединений и отложенного выполнения. Также мы покажем, как можно беспрепятственно сочетать обработку структурированных данных, численные вычисления и машинное обучение. Установка библиотек Мы устанавливаем Daft и поддерживающие его библиотеки непосредственно в Google Colab, чтобы обеспечить чистую и воспроизводимую среду. ```python !pip -q install daft pyarrow pandas numpy scikit-learn ``` ```python import os os.environ["DONOTTRACK"] = "true" ``` ```python import numpy as np import pandas as pd import daft from daft import col ``` ```python print("Daft version:", getattr(daft, "version", "unknown")) ``` Загрузка данных ```python URL = "https://github.
Руководство по программированию для создания масштабируемого конвейера обработки данных машинного обучения с помощью Daft
6 марта6 мар
2 мин