236 подписчиков

🔥 Взломать Postgres: как заставить SQL бегать по проводам

16 апреля 202516 апр 2025

4 мин

Когда мы слышим слово «взлом», обычно представляем хакеров в капюшонах, атакующих банки или госструктуры. Однако мир взлома гораздо интереснее и шире: иногда хакеры занимаются тонким и элегантным переплетением технологий, чтобы сделать их мощнее, быстрее и умнее. Именно таким искусным взломом является «Hacking the Postgres wire protocol» от PgDog. PgDog — это не обычный прокси, это продвинутый сетевой посредник, который способен заглядывать прямо в SQL-запросы, передаваемые между клиентом и PostgreSQL. Задача PgDog — маршрутизировать эти запросы сразу на несколько серверов PostgreSQL, прозрачно распределяя нагрузку и ускоряя работу приложений без переписывания кода. Но как это работает на техническом уровне? Postgres использует два типа сетевого протокола для передачи запросов: Простой протокол действительно прост: клиент отправляет серверу одно сообщение с типом запроса и самим SQL: 'Q' | \x00\x00\x00& | SELECT * FROM users WHERE id = 25\0 Однако простота здесь только внешняя. Чтобы э

Оглавление

🐶 Что такое PgDog и зачем ему «ломать» Postgres?
⚙️ Под капотом протокола PostgreSQL
🌳 Abstract Syntax Tree (AST): магия разбора SQL

🐶 Что такое PgDog и зачем ему «ломать» Postgres?

PgDog — это не обычный прокси, это продвинутый сетевой посредник, который способен заглядывать прямо в SQL-запросы, передаваемые между клиентом и PostgreSQL. Задача PgDog — маршрутизировать эти запросы сразу на несколько серверов PostgreSQL, прозрачно распределяя нагрузку и ускоряя работу приложений без переписывания кода.

Но как это работает на техническом уровне?

⚙️ Под капотом протокола PostgreSQL

Postgres использует два типа сетевого протокола для передачи запросов:

🔹 Simple protocol (простой протокол)
🔸 Extended protocol (расширенный протокол)

Простой протокол действительно прост: клиент отправляет серверу одно сообщение с типом запроса и самим SQL:

'Q' | \x00\x00\x00& | SELECT * FROM users WHERE id = 25\0

Однако простота здесь только внешняя. Чтобы эффективно маршрутизировать такой запрос, PgDog должен уметь отвечать на два важных вопроса:

❓ Это чтение или запись данных?
🗝️ Есть ли в запросе шардирующий ключ и какой он?

🌳 Abstract Syntax Tree (AST): магия разбора SQL

Чтобы найти ответ, PgDog использует библиотеку pg_query на Rust, которая на самом деле использует оригинальный исходный код PostgreSQL. Эта библиотека формирует AST-запроса, благодаря чему PgDog может понять его суть и найти нужный ключ для шардирования:

let ast = pg_query::parse("SELECT * FROM users WHERE id = 25");

Интересно, что pg_query — не просто очередной парсер SQL, а самый настоящий порт движка Postgres, что даёт уверенность в 100%-ной совместимости.

🔗 Хэш-функция из ядра PostgreSQL

Выбор правильной хэш-функции для шардирования — ключевой момент. В PgDog решили не изобретать велосипед, а позаимствовать код из самого PostgreSQL:

CREATE TABLE users (id BIGINT, email VARCHAR) PARTITION BY HASH(id);

Это значит, что вам не нужно писать собственные функции: любая таблица, партицированная PostgreSQL, автоматически совместима с PgDog. Это элегантное решение упрощает интеграцию и миграции.

Для этого была применена небольшая магия Rust: код хэш-функции из PostgreSQL был встроен напрямую через FFI (cc crate), что позволяет без переписывания использовать мощь Postgres на полную катушку.

📌 Обработка параметров и сложных запросов

PgDog справляется не только с простыми запросами типа id = 25. Сложные случаи обрабатываются не менее эффективно:

✅ Запросы с IN (1,2,3) PgDog хэширует и маршрутизирует по нужным шардам.
✅ Запросы с условиями типа id != 25 или id < 25 отправляются сразу на все шарды.

Особенно интересны INSERT-запросы, где приходится определять положение шардирующего ключа из схемы таблицы:

INSERT INTO users VALUES (25, 'hi@pgdog.dev');

Здесь PgDog предварительно читает схему из базы, чтобы понять, какой из столбцов соответствует шардирующему ключу.

🚀 Расширенный протокол PostgreSQL

Расширенный протокол работает иначе:

📝 Parse (парсинг SQL с параметрами)
🎛️ Bind (подстановка значений параметров)

PgDog сохраняет разобранный AST из сообщения Parse в кэше, и только затем, получив Bind с параметрами, понимает, куда маршрутизировать запрос. Это не просто удобно, но и очень быстро, так как разбор SQL выполняется всего один раз.

🌐 Магия мультишардинга и агрегации данных

Теперь самое интересное: PgDog не просто маршрутизирует запросы. Он может отправлять запрос сразу на несколько серверов PostgreSQL и умно агрегировать результаты:

📊 Собирает строки данных (DataRow) со всех шардов.
🔍 Сортирует их при наличии ORDER BY.
🎯 Объединяет результаты в один ответ клиенту, прозрачно подменяя счётчики строк и статусы выполнения запросов.

Это особенно полезно для аналитических запросов или dashboard'ов, которым нужно агрегировать данные из десятков шардов одновременно.

⚡️ Массовая загрузка с COPY: суперскорость!

Отдельное внимание заслуживает реализация команды COPY. PgDog может одновременно принимать потоки данных и маршрутизировать каждую строку сразу на нужный шард, что многократно ускоряет загрузку данных.

Технически это выглядит так:

📥 PgDog принимает большие куски данных (например, CSV).
🗃️ Буферизирует их, чтобы получить ровные строки.
🚦 Определяет шарды и отправляет данные параллельно.

Благодаря Rust и многопоточности (Tokio), PgDog легко переваривает гигабайты данных в секунду, используя все ресурсы серверов максимально эффективно.

🤔 Личное мнение автора

На мой взгляд, PgDog — это не просто ещё один инструмент для Postgres, а элегантный пример «разумного хакинга». Вместо того, чтобы городить костыли поверх баз данных, PgDog аккуратно и незаметно проникает внутрь протокола PostgreSQL и усиливает его возможности. Это красивый и грамотный подход, который заслуживает уважения и внимания разработчиков.

Однако стоит учитывать, что:

⚠️ Любое глубокое вмешательство в протокол требует тщательной проверки совместимости.
🔧 Сложные кейсы шардирования всё равно потребуют ручной настройки.

Но возможности, которые даёт PgDog, настолько велики, что попробовать его стоит однозначно.

🌟 Заключение и взгляд в будущее

PgDog уже сегодня способен «сломать» привычные ограничения PostgreSQL и сделать его мощной распределённой системой. В будущем PgDog планирует поддерживать репликационные потоки и интегрироваться с облачными платформами вроде AWS Aurora и Google AlloyDB.

Это тот самый случай, когда элегантный взлом становится мощным инструментом в руках разработчиков.

🔗 Источник новости: Hacking the Postgres wire protocol
🔗 PgDog GitHub: PgDog на GitHub