212 подписчиков

🦀🎭 Как создать сверхнадёжную систему? Театр детерминированных машин состояний на Rust

5 августа 20255 авг 2025

4 мин

Каждый разработчик, хотя бы раз пытавшийся исправить баги в распределённой системе, знает, как это мучительно: сегодня система работает, завтра ломается, а воспроизвести условия сбоя практически невозможно. К счастью, на горизонте появился новый подход, который обещает избавить разработчиков от бесконечного стресса и ночных вызовов: детерминированное симуляционное тестирование (DST) на основе машин состояний в языке Rust. Недавно команда компании Polar Signals поделилась опытом создания новой базы данных, полностью построенной на детерминированных симуляциях и строгой архитектуре машин состояний. Подход оказался настолько удачным, что позволил выявить сложнейшие ошибки, включая потерю и дублирование данных, ещё до выхода системы в продакшн. 🔍 Что такое DST и почему это важно? Детерминированное симуляционное тестирование – это методика, при которой все возможные сценарии работы системы симулируются в полностью контролируемых условиях. Благодаря этому любые ошибки легко воспроизводятся

Недавно команда компании Polar Signals поделилась опытом создания новой базы данных, полностью построенной на детерминированных симуляциях и строгой архитектуре машин состояний. Подход оказался настолько удачным, что позволил выявить сложнейшие ошибки, включая потерю и дублирование данных, ещё до выхода системы в продакшн.

🔍 Что такое DST и почему это важно?

Детерминированное симуляционное тестирование – это методика, при которой все возможные сценарии работы системы симулируются в полностью контролируемых условиях. Благодаря этому любые ошибки легко воспроизводятся по исходному «случайному зерну». Для разработчиков это означает, что найти и исправить проблему можно гораздо быстрее, чем при традиционном подходе, где ошибки в продакшне часто не воспроизводятся локально.

Идея не нова, но ранее её было тяжело реализовать эффективно. Например, команда Polar Signals до этого пыталась внедрить DST в своей базе данных на Go, но сталкивалась с ограничениями языка: goroutine-система не позволяла легко контролировать параллелизм и требовала сложных вмешательств в рантайм.

Теперь же, переходя на Rust, разработчики получили возможность переосмыслить архитектуру и реализовать DST «с нуля».

🎯 Четыре ключевых элемента контроля в DST:

Для успешного DST необходимо полностью контролировать следующие параметры:

🧵 Параллелизм (Concurrency)
Вместо бесконтрольного запуска потоков и задач, вся логика выполняется в однопоточной среде, где каждая задача выполняется строго последовательно.
🕒 Время (Time)
Система не обращается напрямую к системным часам, а получает «текущее время» от центрального компонента (директора), что позволяет ускорять или замедлять время в тестах.
🎲 Случайность (Randomness)
Все случайные действия контролируются через единый генератор псевдослучайных чисел, что обеспечивает абсолютную воспроизводимость сценариев.
⚡️ Инъекция сбоев (Failure Injection)
Любая ошибка (например, сбой записи на диск) вводится в систему централизованно и полностью контролируемо через дирижёра сообщений.

🎭 Архитектура: театр машин состояний

Новая база данных Polar Signals полностью построена на основе state machines (машин состояний), общающихся друг с другом через единую шину сообщений, названную авторами Director.

Вот как выглядит ключевой интерфейс машины состояний на Rust:

pub trait StateMachine {
fn receive(
&mut self,
m: Message,
) -> Option<Vec<(Message, Destination)>>;

fn tick(
&mut self,
curtime: Instant,
) -> Option<Vec<(Message, Destination)>>;
}

🔹 receive – обработка входящих сообщений и изменение состояния.
🔹 tick – реакция на изменение времени (например, сброс буферов по таймеру).

Используя эту простую модель, система легко симулирует любые сценарии и ошибки, сохраняя полную воспроизводимость.

🚏 Director — сердце системы

Именно Director (дирижёр сообщений) решает, когда и в каком порядке запускать методы машин состояний. В результате:

🗂️ Планирование задач становится полностью управляемым и предсказуемым.
📅 Контроль времени осуществляется точечно и с произвольной скоростью.
🎯 Генератор случайных чисел с единственным seed’ом гарантирует воспроизводимость.
🛠️ Инъекция сбоев не требует дополнительного кода в каждой компоненте, а реализуется на уровне сообщений централизованно.

🐞 Результаты и проблемы реализации

Успех был впечатляющим: ещё на этапе разработки DST помог найти два критических бага в новой Rust-базе данных, причём ошибки были серьёзными – потеря и дублирование данных. Тем не менее, авторы признают, что данный подход требует высокой дисциплины:

💡 Когнитивная нагрузка
Разработчики должны чётко и точно моделировать состояние своих компонентов. Это может быть тяжело психологически и приводит к соблазну выносить логику за пределы машин состояний.
🧩 Внешние зависимости
Любая внешняя библиотека, не контролируемая напрямую, становится потенциальным источником неопределённости. Решение – максимально сократить такие зависимости или полностью их контролировать в тестах.

⚖️ Личное мнение автора статьи:

Как разработчик, сталкивавшийся с отладкой сложных распределённых систем, могу сказать, что подход Polar Signals вызывает восхищение. Да, когнитивная нагрузка растёт, однако в долгосрочной перспективе этот подход окупается многократно. Вместо постоянного страха перед непредсказуемыми ошибками, вы получаете полную уверенность в стабильности и корректности системы. Особенно важен такой подход в критических проектах – финансы, медицина, хранение и обработка важной информации.

📌 Вывод:

Если вы начинаете новый проект, где надёжность критически важна, стоит всерьёз задуматься о построении системы в виде машин состояний с использованием DST. Возможно, это потребует чуть больше усилий на старте, но сэкономит нервы, время и деньги в будущем.

🔗 Полезные ссылки по теме: