30 подписчиков

Как использовать каналы в Rust для работы с ML

12 августа 202512 авг 2025

9 мин

Каналы используются для межпоточного взаимодействия по модели multiple-producer, single-consumer (mpsc), где несколько потоков могут отправлять данные в один канал, но читать — только один поток. Основные способы использования: Передача данных из одного потока в другой: use std::sync::mpsc;

use std::thread;

let (tx, rx) = mpsc::channel();

thread::spawn(move || {

tx.send(42).unwrap();

});

let received = rx.recv().unwrap(); // 42 Клонирование Sender<T> для отправки из нескольких потоков: let (tx, rx) = mpsc::channel();

let tx1 = tx.clone();

thread::spawn(move || { tx.send(1).unwrap(); });

thread::spawn(move || { tx1.send(2).unwrap(); });

let _ = rx.recv().unwrap(); // 1 или 2

let _ = rx.recv().unwrap(); // оставшееся значение Использование sync_channel для контроля перегрузки (блокировка отправителя при заполнении буфера): let (tx, rx) = mpsc::sync_channel(2); // буфер на 2 элемента

tx.send(1).unwrap();

tx.send(2).unwrap(); // Не блокируется (буфер свободен)

tx.send(3).unwra

use std::thread;

let (tx, rx) = mpsc::channel();

thread::spawn(move || {

tx.send(42).unwrap();

});

let received = rx.recv().unwrap(); // 42 Клонирование Sender<T> для отправки из нескольких потоков: let (tx, rx) = mpsc::channel();

let tx1 = tx.clone();

thread::spawn(move || { tx.send(1).unwrap(); });

thread::spawn(move || { tx1.send(2).unwrap(); });

let _ = rx.recv().unwrap(); // 1 или 2

tx.send(1).unwrap();

tx.send(2).unwrap(); // Не блокируется (буфер свободен)

tx.send(3).unwra

Оглавление

1. Базовый обмен данными между потоками
2. Множественные отправители (Multi-Producer)
3. Синхронные каналы с ограниченным буфером

github.com

GitHub - nicktretyakov/chanelML

5487fb.skillspace.ru

ML на RUST без заморочек

vk.com

Rust ML без заморочек

Каналы используются для межпоточного взаимодействия по модели multiple-producer, single-consumer (mpsc), где несколько потоков могут отправлять данные в один канал, но читать — только один поток. Основные способы использования:

1. Базовый обмен данными между потоками

Передача данных из одного потока в другой:

use std::sync::mpsc;
use std::thread;

let (tx, rx) = mpsc::channel();

thread::spawn(move || {
tx.send(42).unwrap();
});

let received = rx.recv().unwrap(); // 42

2. Множественные отправители (Multi-Producer)

Клонирование Sender<T> для отправки из нескольких потоков:

let (tx, rx) = mpsc::channel();
let tx1 = tx.clone();

thread::spawn(move || { tx.send(1).unwrap(); });
thread::spawn(move || { tx1.send(2).unwrap(); });

let _ = rx.recv().unwrap(); // 1 или 2
let _ = rx.recv().unwrap(); // оставшееся значение

3. Синхронные каналы с ограниченным буфером

Использование sync_channel для контроля перегрузки (блокировка отправителя при заполнении буфера):

let (tx, rx) = mpsc::sync_channel(2); // буфер на 2 элемента

tx.send(1).unwrap();
tx.send(2).unwrap(); // Не блокируется (буфер свободен)
tx.send(3).unwrap(); // Блокируется, пока потребитель не прочитает данные

4. Неблокирующие операции

try_send(): попытка отправить без блокировки.
try_recv(): попытка получить без блокировки.

if let Ok(data) = rx.try_recv() {
// обработка данных
} else {
// данных нет
}

5. Итерация по входящим сообщениям

Бесконечный цикл чтения до закрытия канала:

for received in rx {
println!("Получено: {}", received);
}
// Цикл завершится, когда все отправители будут уничтожены

6. Сигнализация завершения работы

Отправка специального значения (например, None) для остановки потребителя:

enum Command { Task(String), Exit }

let (tx, rx) = mpsc::channel();
tx.send(Command::Task("задача".into())).unwrap();
tx.send(Command::Exit).unwrap();

while let Ok(cmd) = rx.recv() {
match cmd {
Command::Task(task) => println!("{}", task),
Command::Exit => break,
}
}

7. Распределение задач в пуле потоков

Отправка задач рабочим потокам через канал:

let (tx, rx) = mpsc::channel();
let pool = (0..4).map(|_| {
let rx = rx.clone();
thread::spawn(move || {
while let Ok(task) = rx.recv() {
// выполнение задачи
}
})
}).collect::<Vec<_>>();

tx.send("задача 1".to_string()).unwrap();

8. Сбор результатов вычислений

Отправка результатов из рабочих потоков в основной:

let (tx, rx) = mpsc::channel();

for i in 0..5 {
let tx = tx.clone();
thread::spawn(move || {
tx.send(i * 2).unwrap();
});
}

let results: Vec<_> = (0..5).map(|_| rx.recv().unwrap()).collect();

9. Обработка ошибок и закрытие канала

Канал автоматически закрывается при уничтожении всех Sender<T>.
send() возвращает Err, если получатель уничтожен.
recv() возвращает Err, если все отправители уничтожены.

10. Комбинирование с select! (через крейты)

Использование crossbeam-channel или tokio для ожидания сообщений из нескольких каналов:

use crossbeam_channel::{select, unbounded};

let (tx1, rx1) = unbounded();
let (tx2, rx2) = unbounded();

select! {
recv(rx1) -> msg => { /* обработка rx1 */ },
recv(rx2) -> msg => { /* обработка rx2 */ },
}

Дополнительные возможности через крейты:

crossbeam-channel: более производительные каналы с поддержкой select!.
tokio::sync::mpsc: асинхронные каналы для задач async/await.
flume: каналы с поддержкой async/std и выбором (select).

Способы использования для задач машинного обучения :

🧠 1. Организация конвейеров обработки данных

Препроцессинг → Инференс: Каналы связывают этапы обработки (загрузка данных → очистка → аугментация → передача в модель) в параллельный конвейер.

Пример:
Поток загружает изображения, другой поток применяет преобразования,
третий выполняет инференс модели. Буферизированные каналы (sync_channel) балансируют нагрузку.

⚡️ 2. Распределение задач в пуле потоков

Динамическая балансировка: Главный поток отправляет батчи данных или задачи через канал (mpsc::channel) свободным воркерам. Результаты возвращаются в отдельный канал.
Для GPU: Задачи копирования данных на GPU и запуска ядер CUDA координируются через каналы для минимизации простоя.

🔁 3. Сбор результатов вычислений

Агрегация выходов моделей:
При параллельном запуске нескольких моделей (например, ансамбль) каждый поток отправляет предсказания в общий канал. Главный поток агрегирует результаты.
Асинхронная обработка: try_recv() используется для неблокирующего чтения результатов.

📡 4. Координация потоков при работе с GPU

Очередь задач для CUDA: Потоки CPU подготавливают данные и отправляют их через канал в поток, ответственный за взаимодействие с GPU.
Синхронизация: sync_channel ограничивает число задач в очереди, предотвращая переполнение памяти GPU.

⏱️ 5. Управление жизненным циклом потоков

Graceful shutdown: Отправка сигналов (например, None) для корректной остановки воркеров

enum Command { Data(Vec<f32>), Exit }
tx.send(Command::Exit).unwrap();

Мониторинг: Каналы для heartbeat-сообщений между потоками.

🔀 6. Гибридная обработка данных (CPU + GPU)

Конвейер CPU-GPU:
CPU-поток выполняет препроцессинг и отправляет данные в GPU-очередь
через канал. GPU-поток забирает их, выполняет инференс и возвращает
результаты.

Пример: Обработка видео: декодирование кадров на CPU → инференс на GPU → постобработка.

🛡️ 7. Обработка ошибок в многопоточной среде

Передача ошибок: Потоки отправляют Result<T, E> через каналы. Главный поток обрабатывает ошибки без остановки системы

tx.send(process_data(batch)).unwrap();

🔄 8. Синхронизация доступа к ресурсам

Контроль частоты запросов: sync_channel ограничивает число одновременно обрабатываемых запросов к модели (rate limiting).

Пример: Веб-сервер использует канал с размером буфера = 100 для защиты ML-модели от перегрузки.

🤖 9. Интеграция с ML-фреймворками

Работа с Candle/tch-rs: Каналы для передачи тензоров между потоками:

let (tx, rx) = mpsc::channel();
thread::spawn(move || {
let tensor = tch::Tensor::randn(&[128]);
tx.send(tensor).unwrap();
});

Асинхронный инференс: Обёртка над ONNX Runtime (ort) с каналами для параллельных запросов.

⚠️ Критические замечания

Производительность:
Передача больших данных (например, тензоров) через каналы может быть дорогой. Решение: передача по ссылке (с осторожностью!) или
использование shared memory (например, Arc<Mutex<Tensor>>).
Альтернативы: Для сложных сценариев (distributed ML) эффективнее использовать очереди (Kafka, ZeroMQ) или фреймворки вроде Rayon.

Пример интеграции ML-компонентов, сериализации и распределённой обработки

1. Зависимости и их назначение

tch — Rust‑обёртка для PyTorch (работа с тензорами, GPU).
tract-onnx — выполнение ONNX‑моделей (инференс).
tonic + prost — gRPC‑сервер и сериализация Protobuf.
tokio — асинхронная среда выполнения.
crossbeam-channel — каналы для межпоточного взаимодействия.
reqwest — HTTP‑клиент для распределённых запросов.
anyhow — обработка ошибок.
rand — генерация случайных чисел (выбор эндпоинта).

2. Protobuf‑схема (ml_inference.proto)

Определяет gRPC‑сервис и сообщения:

Сервис InferenceService:
Predict — потоковый метод: принимает TensorRequest, возвращает TensorResponse.
Сообщения:
TensorRequest: данные (data), форма (shape), тип (dtype).
TensorResponse: массив TensorProto, задержка (latency_ms).
TensorProto: форма, данные, тип (аналог TensorRequest для вывода).

3. Сборка проекта

Генерация кода:

protoc --rust_out=src/generated --grpc_out=src/generated --plugin=protoc-gen-grpc=`which tonic` ml_inference.proto

Создаёт Rust‑код из .proto‑файла (структуры, gRPC‑серверный код).

Компиляция с GPU:

TORCH_CUDA_VERSION=cu117 cargo build --features tch/cuda

Включает поддержку CUDA для PyTorch.

4. Структура OnnxRuntime

OnnxRuntime — основной компонент для инференса:

model: Arc<dyn RunnableModel> — загруженная ONNX‑модель.
task_sender: канал для отправки тензоров на обработку.
GPU Worker: отдельный поток, который:
принимает тензоры из task_receiver;
запускает инференс через process_input.

Методы OnnxRuntime

new(model_path):
загружает ONNX‑модель (tract_onnx::onnx().model_for_path);
оптимизирует и компилирует модель (into_optimized().into_runnable());
создаёт канал (unbounded()) для задач;
запускает GPU‑воркер в отдельном потоке.
process_input:
конвертирует tch::Tensor → tract_ndarray::Array;
выполняет инференс (model.run);
конвертирует результат обратно в tch::Tensor.
predict_tensor:
отправляет тензор в GPU‑воркер через task_sender;
ждёт результата с таймаутом 5 секунд (select!);
сериализует вывод в TensorProto (serialize_tensor).
serialize_tensor / deserialize_tensor:
преобразуют между tch::Tensor и ml::TensorProto.

5. gRPC‑сервер (InferenceService)

Реализует метод predict для сервиса InferenceService:

Приём запросов:
использует Streaming<ml::TensorRequest> для потоковой передачи;
создаёт канал (bounded(10)) для буферизации результатов.
Обработка потока:
отдельный поток читает входящие TensorRequest;
десериализует их в tch::Tensor (deserialize_tensor);
отправляет в канал result_sender.
Сбор результатов:
главный поток ждёт тензоры из result_receiver;
вызывает predict_tensor для каждого;
собирает ответы в outputs.
Ответ:
формирует TensorResponse с массивом TensorProto;
добавляет задержку (latency_ms = время обработки).

6. Распределённый пул воркеров (DistributedWorkerPool)

Позволяет распределять запросы между удалёнными серверами:

workers: массив потоков‑воркеров.
task_sender: канал для задач (запрос + канал ответа).

Логика работы

Инициализация (new):
создаёт канал для задач (unbounded);
запускает concurrency потоков‑воркеров;
каждый воркер:
выбирает случайный эндпоинт из endpoints;
отправляет HTTP‑запрос через reqwest;
передаёт результат в result_sender.
Метод predict:
создаёт канал ответа (bounded(1));
отправляет задачу в task_sender (запрос + sender);
возвращает receiver для получения результата.

7. Главный сервер (main)

Инициализация:

Загружает модель ONNX (OnnxRuntime::new("resnet50.onnx")).
Создаёт gRPC‑сервис (InferenceServiceServer::new).
Запускает gRPC‑сервер на порту 50051 (Server::builder().add_service().serve()).
Создаёт распределённый пул (DistributedWorkerPool::new) с 8 воркерами и двумя эндпоинтами.

Тестирование:

отправляет 100 тестовых запросов:
формирует TensorRequest (форма [1, 3, 224, 224], данные = 0.5);
вызывает worker_pool.predict;
ждёт результат с таймаутом 3 секунды (select!);
печатает форму вывода (println!("Received result: {:?}", tensor.shape)).

Поток данных

Сценарий инференса:

Клиент отправляет TensorRequest через gRPC.
gRPC‑сервер (OnnxRuntime::predict):
десериализует запрос в tch::Tensor;
передаёт в GPU‑воркер (task_sender);
ждёт результата (predict_tensor);
сериализует в TensorProto.
GPU‑воркер:
получает тензор из канала;
запускает инференс через ONNX Runtime (process_input);
возвращает результат.
gRPC‑сервер формирует TensorResponse, добавляет задержку.
Клиент получает ответ.

Распределённый сценарий:

Главный сервер отправляет запрос в DistributedWorkerPool.
Воркер пула:
выбирает случайный эндпоинт;
делает HTTP‑запрос к удалённому gRPC‑серверу;
передаёт результат обратно.
Главный сервер получает ответ через канал.

Ключевые особенности

Гибридное выполнение: GPU (tch) + ONNX Runtime (tract‑onnx).
Потоковая передача: gRPC позволяет отправлять несколько TensorRequest в одном вызове.
Распределённость: запросы могут маршрутизироваться между серверами.
Асинхронность: Tokio для gRPC, потоки для GPU и HTTP‑воркеров.
Таймауты: защита от зависаний (5 с для инференса, 3 с для HTTP).
Гибкость: поддержка разных моделей (ONNX), форматов (Protobuf), протоколов (gRPC, HTTP).