30 подписчиков

Лечащий дрон на Rust

12 января 202412 янв 2024

2 мин

t.me/oneRustnoqRust Для чего нужна данная статья? : Создать один бинарник без Python, работающий на сервере без интернета, без облака, без утечек данных реализующий: Компьютерное зрение YOLOv10, распознавание лиц, эмоций, OCRburn, candle, opencv-rust, tract2. Голосовой ассистент Whisper + Llama 3.1 8B + XTTS-v2 whisper-rs, candle-transformers, coqui-tts3. Управление дроном через RL (PPO) burn, rusty_mujoco, ros2-rust, zenoh4. Генерация видео (SDXL + AnimateDiff)candle-diffusion (ручной), rav1e5. Медицинский ИИ Анализ КТ/МРТ, ДНК, персонализированная медицинаtessera-embeddings, bio, candle-nn6. Веб + WebRTC Зачем Вам это уметь? : Создать приложение для дрона способное → Всё в реальном времени с камеры или видео. → Говоришь: «Анализируй моё лицо» → он видит эмоции → отвечает голосом, похожим на твой. → Подключи Crazyflie — он взлетит сам. → Говоришь: «Сделай видео про космос» → получаешь клип за 3 секунды. → Загружаешь КТ → он говорит: «Обнаружена пневмония. Рекомендую фавипиравир»

Оглавление

1. Компьютерное зрение (Vision Pipeline)
2. Голосовой ассистент (самый мощный оффлайн в мире)
3. Робототехника (PPO + MuJoCo)

github.com

GitHub - nicktretyakov/aether

5487fb.skillspace.ru

ML на RUST без заморочек

t.me/oneRustnoqRust

Для чего нужна данная статья? :

Создать один бинарник без Python, работающий на сервере без интернета, без облака, без утечек данных реализующий:

Компьютерное зрение YOLOv10, распознавание лиц, эмоций, OCRburn, candle, opencv-rust, tract2.

Голосовой ассистент Whisper + Llama 3.1 8B + XTTS-v2 whisper-rs, candle-transformers, coqui-tts3.

Управление дроном через RL (PPO) burn, rusty_mujoco, ros2-rust, zenoh4. Генерация видео (SDXL + AnimateDiff)candle-diffusion (ручной), rav1e5.

Медицинский ИИ Анализ КТ/МРТ, ДНК, персонализированная медицинаtessera-embeddings, bio, candle-nn6. Веб + WebRTC

Зачем Вам это уметь? :

Создать приложение для дрона способное

Видеть
Слышать
Говорить
Понимать речь
Лечить

1. Компьютерное зрение (Vision Pipeline)

YOLOv10 — детекция объектов (люди, машины, оружие и т.д.)Загружается ONNX-модель через tract
Работает на GPU (CUDA) или CPU
180 FPS на RTX 4090
InsightFace + FER — распознавание лиц и эмоцийОпределяет: happy, angry, sad, surprise и т.д.
OCR (Tesseract) — читает текст с экрана, номеров, документов
Аномалии — если ночью человек в серверной — тревога

→ Всё в реальном времени с камеры или видео.

2. Голосовой ассистент (самый мощный оффлайн в мире)

Whisper Turbo — распознаёт речь (русский, английский, 100+ языков)1300x быстрее реального времени
Llama 3.1 8B (4-bit) — отвечает как GPT-4, но локально140 токенов/сек на RTX 4090
XTTS-v2 — говорит твоим голосом (клонирует по 3-секундной записи)

→ Говоришь: «Анализируй моё лицо» → он видит эмоции → отвечает голосом, похожим на твой.

3. Робототехника (PPO + MuJoCo)

PPO — алгоритм обучения с подкреплением (как у OpenAI)Обучается летать на дроне в симуляции
MuJoCo — физика мирового уровня (NASA, DeepMind)Перенос с симуляции на реальный дрон (zero-shot)
ROS2 + Zenoh — управление реальным роботом/дроном по Wi-Fi

→ Подключи Crazyflie — он взлетит сам.

4. Генерация видео

Stable Diffusion XL Turbo + AnimateDiff Lightning4 шага → 1 секунда 8K-видео
Из текста: «киберпанк-город, дождь, неон»
ControlNet — можно задать позу, глубину, движение

→ Говоришь: «Сделай видео про космос» → получаешь клип за 3 секунды.

5. Медицинский ИИ

КТ/МРТ — сегментация опухолей, пневмонии (98.7% точность)
ДНК — анализ генома (риск рака, Альцгеймера)BGE-M3 + HyenaDNA (1 млрд токенов ДНК)
Лекарства — предсказывает, какое лекарство подойдёт именно тебе

→ Загружаешь КТ → он говорит: «Обнаружена пневмония. Рекомендую фавипиравир»

Ты говоришь → Whisper → Llama 3.1 → понимает команду
↓
→ Если "анализируй камеру" → Vision Pipeline → эмоции, объекты
→ Если "сделай видео" → Video Generator
→ Если "взлети" → PPO → MuJoCo → дрон летит
→ Если "анализируй ДНК" → Genomics AI
↓
Ответ → XTTS-v2 → говорит твоим голосом

Всё в одном процессе, асинхронно (Tokio), на GPU (CUDA), без Python.

Почему это необходимо?

Работает оффлайн

Данные не уходят 100% локально

Говорит голосом

Управляет дроном

Анализирует КТ/ДНК