18 подписчиков

Big Data в Rust

14 января 202414 янв 2024

10 мин

Для чего нужна данная статья? :

- Для поиска компромисса между собственными библиотеками обработки данных и стандартными.

- Для повышения скорости обработки данных.

- Для реализации низкоуровневых оптимизаций обработки больших объемов данных, визуализации и мониторинга.

Зачем Вам это уметь? :

- Реализация высокопроизводительных вычислений ядер или библиотек для обработки данных. Многопоточность и низкоуровневый контроль над памятью при создании эффективных вычислительных алгоритмов.

алгоритм MapReduce для подсчета суммы элементов в массиве

use std::thread;
const NUM_THREADS: usize = 4;
fn main() {
// Создаем пример данных
let data = vec![1, 2, 3, 4, 5, 6, 7, 8, 9, 10];
// Разбиваем массив на части для параллельной обработки
let chunk_size = data.len() / NUM_THREADS;
let mut chunks: Vec<_> = data.chunks(chunk_size).collect();
// Запускаем вычисления в нескольких потоках
let handles: Vec<_> = chunks
.drain(..)
.map(|chunk| {
thread::spawn(move || {
let sum: usize = chunk.iter().sum();
sum
})
})
.collect();
// Собираем результаты из потоков
let results: Vec<_> = handles.into_iter().map(|handle| handle.join().unwrap()).collect();
// Вычисляем общую сумму
let total_sum: usize = results.iter().sum();
println!("Total Sum: {}", total_sum);
}
библиотека фильтрации данных, применяет функцию к каждому элементу вектора в параллельных потоках.

use std::thread;
pub struct DataProcessor {
data: Vec<i32>,
}
impl DataProcessor {
pub fn new(data: Vec<i32>) -> Self {
DataProcessor { data }
}
pub fn process_data(&self, filter_fn: fn(i32) -> bool) -> Vec<i32> {
// Разбиваем данные на части для обработки в нескольких потоках
let chunk_size = self.data.len() / num_cpus::get();
let mut chunks: Vec<_> = self.data.chunks(chunk_size).collect();
// Запускаем вычисления в нескольких потоках
let handles: Vec<_> = chunks
.drain(..)
.map(|chunk| {
thread::spawn(move || {
let result: Vec<i32> = chunk.into_iter().filter(|&x| filter_fn(x)).collect();
result
})
})
.collect();
// Собираем результаты из потоков
let results: Vec<_> = handles.into_iter().map(|handle| handle.join().unwrap()).collect();
// Объединяем результаты
let processed_data: Vec<i32> = results.into_iter().flatten().collect();
processed_data
}
}
fn main() {
// Создаем экземпляр DataProcessor с примером данных
let data_processor = DataProcessor::new(vec![1, 2, 3, 4, 5, 6, 7, 8, 9, 10]);
// Определяем фильтр (оставляем только четные числа)
fn filter_fn(x: i32) -> bool {
x % 2 == 0
}
// Обрабатываем данные параллельно с использованием фильтра
let result = data_processor.process_data(filter_fn);
// Выводим результат
println!("Processed Data: {:?}", result);
}

- Создание инструментов обработки данных, такие как ETL (Extract, Transform, Load) и инструменты для очистки данных, работа с файлами, сетевыми протоколами.

[dependencies]
csv = "1.1.6"
serde = { version = "1", features = ["derive"] }

extern crate csv;
use std::error::Error;
use std::fs::File;
use std::io;
use std::path::Path;
#[derive(Debug, serde::Deserialize, serde::Serialize)]
struct Employee {
name: String,
age: u32,
department: String,
}
fn main() -> Result<(), Box<dyn Error>> {
// Извлекаем данные из CSV файла
let input_file_path = "input.csv";
let input_data = extract_data_from_csv(input_file_path)?;
// Трансформируем данные (увеличиваем возраст на 5 лет)
let transformed_data: Vec<Employee> = input_data.into_iter().map(|mut e| { e.age += 5; e }).collect();
// Загружаем данные в новый CSV файл
let output_file_path = "output.csv";
load_data_to_csv(output_file_path, transformed_data)?;
Ok(())
}
fn extract_data_from_csv(file_path: &str) -> Result<Vec<Employee>, Box<dyn Error>> {
let file = File::open(file_path)?;
let mut rdr = csv::Reader::from_reader(file);
let records: Vec<Employee> = rdr.deserialize().collect::<Result<_, _>>()?;
Ok(records)
}
fn load_data_to_csv(file_path: &str, data: Vec<Employee>) -> Result<(), Box<dyn Error>> {
let file = File::create(file_path)?;
let mut wtr = csv::Writer::from_writer(file);
for employee in data {
wtr.serialize(employee)?;
}
wtr.flush()?;
Ok(())
}

- Разработка распределенных систем, такие как управление задачами, обмен сообщениями между узлами и т.д.

[dependencies]
tokio = { version = "1", features = ["full"] }
serde = { version = "1", features = ["derive"] }
serde_json = "1.0"
use serde::{Deserialize, Serialize};
use std::collections::HashMap;
use std::net::{SocketAddr, TcpListener};
use tokio::io::{AsyncReadExt, AsyncWriteExt};
use tokio::net::TcpStream;
use tokio::sync::mpsc;
#[derive(Debug, Serialize, Deserialize)]
enum Message {
Task { id: u64, payload: String },
Result { id: u64, result: String },
}
#[tokio::main]
async fn main() {
// Создаем хэш-карту для хранения результатов задач
let mut task_results: HashMap<u64, String> = HashMap::new();
// Создаем канал для обмена сообщениями между узлами
let (tx, mut rx) = mpsc::channel::<(SocketAddr, Message)>(100);
// Запускаем слушатель на порту 8080
let listener = TcpListener::bind("127.0.0.1:8080").await.unwrap();
println!("Server listening on port 8080...");
// Запускаем обработчик задач
tokio::spawn(async move {
while let Some((addr, message)) = rx.recv().await {
match message {
Message::Task { id, payload } => {
// Просто для примера, обработаем payload как uppercase
let result = payload.to_uppercase();
task_results.insert(id, result.clone());
// Отправляем результат обратно узлу-запросителю
if let Ok(mut stream) = TcpStream::connect(addr).await {
let response_message = Message::Result { id, result };
let response = serde_json::to_string(&response_message).unwrap();
stream.write_all(response.as_bytes()).await.unwrap();
}
}
_ => {}
}
}
});
// Обрабатываем входящие подключения
while let Ok((stream, addr)) = listener.accept().await {
tokio::spawn(handle_client(stream, addr, tx.clone()));
}
}
async fn handle_client(mut stream: TcpStream, addr: SocketAddr, tx: mpsc::Sender<(SocketAddr, Message)>) {
let mut buffer = [0; 1024];
while let Ok(n) = stream.read(&mut buffer).await {
if n == 0 {
break;
}
if let Ok(request_str) = String::from_utf8(buffer[0..n].to_vec()) {
if let Ok(request_message) = serde_json::from_str::<Message>(&request_str) {
// Обрабатываем запрос и отправляем задачу в обработчик
match request_message {
Message::Task { id, payload } => {
let message = Message::Task { id, payload };
tx.send((addr, message)).await.unwrap();
}
_ => {}
}
}
}
}
}

- Реализация хранилищ данных: локальные базы данных и распределенные системы хранения данных.

[dependencies]
rusqlite = "0.26.2"
use rusqlite::{params, Connection, Result};
#[derive(Debug)]
struct Employee {
id: i32,
name: String,
age: i32,
department: String,
}
fn create_table(conn: &Connection) -> Result<()> {
conn.execute(
"CREATE TABLE IF NOT EXISTS employees (
id INTEGER PRIMARY KEY,
name TEXT NOT NULL,
age INTEGER NOT NULL,
department TEXT NOT NULL)",
[],
)?;
Ok(())
}
fn insert_employee(conn: &Connection, employee: &Employee) -> Result<()> {
conn.execute(
"INSERT INTO employees (name, age, department) VALUES (?1, ?2, ?3)",
params![employee.name, employee.age, employee.department],
)?;
Ok(())
}
fn query_employees(conn: &Connection) -> Result<Vec<Employee>> {
let mut stmt = conn.prepare("SELECT id, name, age, department FROM employees")?;
let rows = stmt.query_map([], |row| {
Ok(Employee {
id: row.get(0)?,
name: row.get(1)?,
age: row.get(2)?,
department: row.get(3)?,
})
})?;
let mut employees = Vec::new();
for employee in rows {
employees.push(employee?);
}
Ok(employees)
}
fn main() -> Result<()> {
let conn = Connection::open_in_memory()?;
create_table(&conn)?;
let employees = vec![
Employee {
id: 1,
name: "John Doe".to_string(),
age: 30,
department: "IT".to_string(),
},
Employee {
id: 2,
name: "Jane Smith".to_string(),
age: 25,
department: "HR".to_string(),
},
];
for employee in &employees {
insert_employee(&conn, employee)?;
}
let retrieved_employees = query_employees(&conn)?;
println!("Retrieved Employees: {:?}", retrieved_employees);
Ok(())
}

- Разработка библиотек для обработки данных для работы с различными форматами данных, алгоритмы машинного обучения или инструменты для анализа данных.

[dependencies]
csv = "1.1.6"
serde = { version = "1", features = ["derive"] }

// В файле lib.rs вашей библиотеки
use csv::ReaderBuilder;
use serde::Deserialize;
use std::error::Error;
use std::fs::File;

#[derive(Debug, Deserialize)]
struct Record {
#[serde(rename = "Value")]
value: i32,
}

pub fn calculate_sum_from_csv(file_path: &str, column_name: &str) -> Result<i32, Box<dyn Error>> {
let file = File::open(file_path)?;
let mut rdr = ReaderBuilder::new().has_headers(true).from_reader(file);

let mut sum = 0;
for result in rdr.deserialize::<Record>() {
let record: Record = result?;
match column_name {
"Value" => sum += record.value,
_ => return Err("Column not found".into()),
}
}

Ok(sum)
}
// В файле tests/lib.rs

use my_data_processing_lib::calculate_sum_from_csv;

#[test]

fn test_calculate_sum_from_csv() {

let file_path = "test_data.csv";

let column_name = "Value";

let result = calculate_sum_from_csv(file_path, column_name);

assert_eq!(result, Ok(15)); }

- Интеграция с существующими Big Data технологиями: Apache Hadoop, Apache Spark, Apache Flink.

[dependencies]
flink-rs = "0.8.2"

use flink_rs::flink::{ExecutionEnvironment, DataSource};
use flink_rs::types::Record;
fn main() {
// Инициализация окружения выполнения Flink
let env = ExecutionEnvironment::create_local_environment(1).unwrap();
// Создание источника данных (в данном случае, простой вектор)
let data = vec![1, 2, 3, 4, 5];
let source = DataSource::new(env.clone(), data);
// Применение преобразования (умножение каждого числа на 2)
let result = source.map(|&x| x * 2);
// Сбор и вывод результатов
let results: Vec<i32> = result.collect().unwrap();
println!("Result: {:?}", results);
}

- Разработка инструментов мониторинга и управления.

[dependencies]
tokio = { version = "1", features = ["full"] }
prometheus = "0.11.0"

use prometheus::{Encoder, TextEncoder};
use std::net::SocketAddr;
use tokio::net::TcpListener;
use tokio::stream::StreamExt;
use warp::{http::Response, Filter};
async fn start_prometheus_server(addr: SocketAddr) {
let metrics = warp::path!("metrics")
.map(|| {
let metric_families = prometheus::gather();
let mut buffer = vec![];
let encoder = TextEncoder::new();
encoder.encode(&metric_families, &mut buffer).unwrap();
Response::builder()
.header("Content-Type", encoder.format_type())
.body(buffer)
});
tokio::spawn(warp::serve(metrics).run(addr));
}
#[tokio::main]
async fn main() {
// Старт HTTP-сервера для метрик Prometheus
let prometheus_addr = "127.0.0.1:9090".parse().unwrap();
start_prometheus_server(prometheus_addr).await;
// Пример работы с метриками
let counter = prometheus::register_counter!("example_counter", "Example counter help").unwrap();
// Увеличение счетчика
counter.inc();
// логика обработки данных Big Data...
// логика работы с данными Big Data
tokio::signal::ctrl_c().await.expect("Failed to listen for Ctrl+C");
}