Каждый разработчик рано или поздно сталкивается с необходимостью парсинга PDF-файлов. И вот он, полный энтузиазма, открывает спецификацию формата, думая: «Ну что тут может быть сложного?». Однако на практике всё оказывается не так просто. PDF – это не спецификация, а, скорее, «социальный договор», в котором строгие правила существуют лишь условно, а каждый файл живёт своей жизнью. Элиот Джонс в своей статье подробно описал все мучения, через которые ему пришлось пройти при парсинге почти четырёх тысяч PDF-файлов. Давайте заглянем в это болото вместе и разберёмся, в чём основная проблема и как с ней бороться. 📖 Теория: Как должен работать парсинг PDF Концептуально PDF-файл устроен довольно просто: На бумаге всё выглядит идеально, но когда наступает реальность, начинается настоящий кошмар. 🔥 Практика: Что может пойти не так? После анализа тысяч PDF-файлов автор обнаружил, что около 0.5% содержат серьёзные ошибки и отклонения от стандарта: 🔗 Ошибка в указателе на xref-таблицу Часто вст
🗃️ Парсинг PDF-файлов: почему это так сложно и как выжить в «PDF-болоте»
4 августа 20254 авг 2025
14
3 мин