59 подписчиков

Parallax — первый в мире полностью децентрализованный движок для инференса ИИ

24 июня 202524 июн 2025

3 мин

В мире искусственного интеллекта наступает новая эра. Parallax — это первый в мире полностью децентрализованный инференс-движок, который переосмысливает работу больших языковых моделей (LLM), превращая её в глобальный, совместный процесс. Вместо того чтобы полагаться на централизованные дата-центры, модели теперь могут исполняться и проверяться на распределённой сети устройств — быстро, масштабируемо и без посредников. Развитие ИИ стоит на двух простых истинах: Однако инфраструктура, поддерживающая этот рост, не справляется с нагрузкой. Производители чипов не успевают за спросом, центры обработки данных потребляют колоссальное количество энергии, а стоимость владения ИИ-моделями на персональном уровне остаётся недосягаемой. Это замедляет прогресс и сужает круг доступа к интеллекту. Parallax создан, чтобы разрушить эти барьеры. Он предлагает новый путь — построение масштабируемого, приватного и доступного ИИ на основе распределённых вычислений. Parallax снимает монополию с доступа к ИИ.

Оглавление

Почему это важно: Интеллект как общее благо
Три ключевых сдвига, которые предлагает Parallax
1. Суверенитет интеллекта для всех

Почему это важно: Интеллект как общее благо

Развитие ИИ стоит на двух простых истинах:

Люди всегда будут стремиться к большему интеллекту.
Больше токенов — значит больше интеллекта.

Однако инфраструктура, поддерживающая этот рост, не справляется с нагрузкой. Производители чипов не успевают за спросом, центры обработки данных потребляют колоссальное количество энергии, а стоимость владения ИИ-моделями на персональном уровне остаётся недосягаемой. Это замедляет прогресс и сужает круг доступа к интеллекту.

Parallax создан, чтобы разрушить эти барьеры. Он предлагает новый путь — построение масштабируемого, приватного и доступного ИИ на основе распределённых вычислений.

Три ключевых сдвига, которые предлагает Parallax

1. Суверенитет интеллекта для всех

Parallax снимает монополию с доступа к ИИ. Теперь любой человек может запускать модели на своих собственных устройствах — без зависимости от облаков и API. Это шаг к подлинной демократизации интеллекта.

2. Совместный инференс

Модели разбиваются на части и исполняются на множестве устройств по всему миру — будь то потребительские GPU, ноутбуки или десктопы. Вместе они формируют единую цепочку выполнения модели.

3. Раскрытие скрытых вычислительных мощностей

В мире огромное количество неиспользуемых ресурсов — игровые ПК, рабочие станции, ноутбуки. Parallax объединяет их в сеть, превращая в полноценную вычислительную платформу для инференса.

Как работает Parallax: Архитектура и компоненты

1. Уровень выполнения (Runtime Layer)

Сердце системы, координирующее работу на разнородных устройствах. Включает:

Исполнительный цикл,
Хранилище шардов модели,
Планировщик задач,
Кэш-менеджер для оптимизации работы с памятью.

Особенности:

Непрерывная пакетная обработка: объединение запросов для повышения производительности.
Управление кэшем: блоковая структура кэша для эффективного использования памяти и ускорения инференса.

Parallax первым предлагает серверный инференс на базе Apple Silicon, объединив устройства с чипами NVIDIA и Apple в единую сеть.

2. Уровень коммуникации (Communication Layer)

Организует обмен данными между узлами с помощью gRPC и потоковой передачи тензоров. Использует DHT от Hivemind — децентрализованную таблицу хешей, обеспечивающую надёжность и масштабируемость без центрального координатора.

3. Уровень рабочих узлов (Worker Layer)

Разделён на два типа:

GPU Workers (NVIDIA): работают на базе SGLang и PyTorch с поддержкой асинхронной пакетной обработки.
Apple Workers: оптимизированный движок на основе MLX и Metal с поддержкой Flash Attention — уникальное решение для эффективного инференса на устройствах Apple.

Swarm-архитектура: Рой узлов

Каждый узел сети выполняет определённую часть модели. Когда пользователь отправляет запрос:

Клиент разбивает текст на токены, формирует маски внимания и метаданные маршрутизации.
Выбираются подходящие узлы на основе вычислительной мощности и задержки.
Инференс проходит пошагово — от одного узла к другому — до получения результата.

Сеть самовосстанавливается, поддерживает автоматическое перераспределение нагрузки и динамическое подключение новых участников.

Результаты тестирования

В сравнении с Petals, Parallax показал:

3,1 раза ниже общая задержка;
5,3 раза ниже задержка между токенами;
2,9–3,1 раза выше пропускная способность на вход и выход.

Система стабильно работает даже при увеличении длины входа с 4K до 16K токенов, демонстрируя отличную масштабируемость.

Попробуйте децентрализованный интеллект уже сейчас

Вы можете протестировать чат-бот на базе Parallax уже сегодня. На поверхности это обычный ИИ, но каждое сообщение генерируется в реальном времени с помощью распределённой сети персональных устройств — а не централизованного сервера.

Мы находимся в закрытой бете программы Edge Host. Если хотите внести вклад и предоставить свою вычислительную мощность — подайте заявку.

Вперёд — к открытому ИИ

Parallax создан для мира, где ИИ — это повсеместно доступный, интерактивный и децентрализованный интеллект. Мы вдохновлены работами open-source сообществ, таких как vLLM и SGLang, и планируем открыть исходный код Parallax, когда он будет готов к продакшену.

С Lattica, отвечающей за передачу данных, и Parallax — за распределённый инференс, мы строим базу для по-настоящему открытого, децентрализованного ИИ-стека.

Будущее ИИ — децентрализованное. И оно начинается прямо сейчас.