214 подписчиков

Когда хвостовые вызовы становятся решающим фактором: взгляд на интерпретаторы в Python и не только

20 февраля 202520 фев 2025

5 мин

Разработчики на языке C уже давно умеют использовать хвостовые вызовы (tail calls), чтобы ускорять интерпретаторы. Но, как показывает недавняя новость, эта техника не только «теоретически» даёт прирост, а уже реализована в самом Python (начиная с 3.14) и открывает дорогу к новым возможностям оптимизации. Давайте разберёмся, в чём её суть, чем интересна сама идея «интерпретатор с оптимизацией хвостовых вызовов» (tail calling interpreter) и почему новинка не является чем-то исключительно «экзотическим». Механизм хвостового вызова (tail call) упрощённо означает: если функция в самом конце вызывает другую функцию и не выполняет после этого никаких действий, то вместо обычного «вызвать → вернуться → снять стек» компилятор может «перепрыгнуть» прямо в следующую функцию, тем самым экономя ресурсы на сохранении и восстановлении контекста. На самом деле в интерпретаторах (как, например, в Python) мы имеем дело с цепочками маленьких функций, которые вызываются одна за другой. Наша цель — чтобы э

Оглавление

Зачем нужны хвостовые вызовы интерпретатору?
В чём «фишка» нового интерпретатора Python
Технические подробности: почему всё не так просто

Зачем нужны хвостовые вызовы интерпретатору?

Механизм хвостового вызова (tail call) упрощённо означает: если функция в самом конце вызывает другую функцию и не выполняет после этого никаких действий, то вместо обычного «вызвать → вернуться → снять стек» компилятор может «перепрыгнуть» прямо в следующую функцию, тем самым экономя ресурсы на сохранении и восстановлении контекста.

На самом деле в интерпретаторах (как, например, в Python) мы имеем дело с цепочками маленьких функций, которые вызываются одна за другой. Наша цель — чтобы эти функции были максимально «лёгкими» по части накладных расходов, ведь каждая из них вызывается очень часто.

В чём «фишка» нового интерпретатора Python

По словам автора новости, недавно в репозиторий CPython уже был влит pull request (запрос на внесение изменений), который добавляет «tail calling interpreter». Пока что он не включён по умолчанию и активируется только опцией --with-tail-call-interp при конфигурации Python. Но планируется, что в будущем это станет стандартом.

✏️ Интересный факт: автор этой реализации, Кен Джин (Ken Jin), показывает в тестах рост производительности от 9% до 15% (среднегеометрически) по официальному бенчмарку PyPerformance. Для интерпретируемого языка это очень серьёзная прибавка!

Технические подробности: почему всё не так просто

Когда мы говорим о хвостовых вызовах на уровне C/С++, часто упоминаются две вещи:

🐢 [[clang::musttail]]

Специальный атрибут в Clang/LLVM, который жёстко требует у компилятора «не выбрасывать» оптимизацию хвостового вызова.
Но у него есть строгие ограничения: сигнатуры вызовов должны совпадать, а сама платформа должна поддерживать оптимизацию хвостовых вызовов.

🐇 preserve_none и preserve_most

Это атрибуты, появившиеся (и доработанные) в Clang, чтобы сокращать избыточные операции с регистрами(saves/spills).
Суть в том, что если функция не обязана сохранять некоторые регистры (preserve_none), она может работать быстрее, ведь ей не нужно хранить и восстанавливать их из стека.
Для не-хвостовых вызовов (которые невозможно оптимизировать как хвостовые вызовы) полезно делать их через функции, помеченные preserve_most, чтобы вызывающая функция не тратила время на сохранение регистров.

💡 Почему так важно оптимизировать работу с регистрами?
Интерпретатор — это, фактически, суперчастый цикл вызовов подфункций (каждый байт-код требует отдельной «мини-функции»). Если каждая такая «мини-функция» будет сохранять и восстанавливать регистры, где-то в глубине цикла появятся лишние сотни инструкций. То есть для программистов важно максимально эффективно использовать возможности архитектуры.

Личный взгляд: ключевые факторы развития оптимизации хвостовых вызовов в интерпретаторах

Мне кажется особенно показательным пример LuaJIT: ведь LuaJIT уже считался одним из самых быстрых интерпретаторов, но даже ему новый подход даёт дополнительно около 31% прироста. Конечно, в таком экспериментальном проекте, как Deegen (LuaJIT Remake), есть свои нюансы (например, пока не реализована полноценная сборка мусора), но факт остаётся фактом: хвостовые вызовы — реальная, а не «академическая» оптимизация.

Если говорить о Python, то:

⚙️ Сочетание musttail + preserve_none может стать отличным трамплином для будущих улучшений. Python — язык, где всё строится вокруг интерпретации (при отсутствии активного JIT). Если наши «опкоды» и их выполнение быстрее, значит, любая прикладная программа на Python работает шустрее, даже без дополнительного кэширования или хитрых JIT-приёмов.

🚀 Переход на интерпретаторы с оптимизацией хвостовых вызовов открывает дорогу к более «умным» способам написания байт-кодовых циклов и парсеров. Из статьи Джоша Хабермана ясно, что многие «больные места» в оптимизациях уже решаются благодаря растущей поддержке musttail в GCC и предложению включить «return goto» в стандарт C.

Будущее: «return goto» в стандарте C?

Одной из самых захватывающих идей, упомянутых в новости, является предложение ввести конструкцию return goto func(...) непосредственно в стандарт C. Это бы означало, что компиляторы гарантируют нам хвостовой вызов на уровне языка.

🔎 Почему это важно?

Снизится фрагментация между компиляторами (Clang, GCC, MSVC).
Больше не придётся «гадать», будет ли оптимизация работать на данной платформе.
Интерпретаторы Scheme (где хвостовая рекурсия — основополагающая вещь) уже давно ждут чего-то подобного. А теперь и Python, и Ruby, и другие языки могут подтянуться.

Ключевые нюансы реализации

🛠 Ограничения соглашений о вызовах (Calling Convention)

На разных архитектурах правила (ABI) могут не позволять «гарантированно» оптимизировать хвостовой вызов, особенно если функция-вызываемая и вызывающая отличаются по аргументам.
Clang пытается быть «переносимым» и слишком жёстко запрещает несоответствующие сигнатуры, но пользователи просят более гибкое решение (чтобы не ломать код, который на самом деле может быть оптимизирован на конкретной платформе).

🤝 Взаимодействие со стандартными библиотеками

Если вы захотите каждый вызов стандартной функции (например, strlen()) сделать «оптимизированным» (preserve_most) и она к тому же не ваша, придётся писать обёртки, что немного громоздко.

💡 Не всё идеально

WebAssembly без расширения "Tail Call" вообще не может корректно поддерживать хвостовые вызовы. Значит, часть платформ остаётся «за бортом». Но всё-таки тенденция идёт к тому, что хвостовые вызовы становятся более универсальными.

Итоги и почему это важно для сообщества Python

Для сообщества Python новость о том, что в 3.14 появилась конфигурируемая поддержка интерпретатора с поддержкой хвостовых вызовов (tail calling interpreter), означает:

🔶 Дополнительные 9–15% производительности без изменения самого Python-кода у пользователей.
🔶 Путь к дальнейшим улучшениям: возможно, со временем это станет включённым по умолчанию флагом, и тогда все проекты сразу почувствуют ускорение.
🔶 Пример для других языков: Ruby, PHP и другие языки могут обратить внимание на опыт Python, если ещё не сделали этого.

Мой прогноз: оптимизация интерпретаторов через хвостовые вызовы постепенно станет базовым приёмом для всех «старых» языков с C-кодовой базой. Ведь у нас уже есть современные компиляторы Clang и GCC, которые поддерживают musttail, preserve_none и другие «фишки». Осталось лишь дождаться, когда это станет нормой, а не экспериментом.

Ссылки на новость и дополнительные материалы:

Статья с подробностями: A tail calling interpreter for Python (already landed in CPython)