Рассмотрим анализ docx файла. Этот тип файлов состоит из многих секций, таких как mainstream, содержащие главную информацию о файле. Заголовок такой секции File Information block. C 2007 года, после начала использования формата xml, парсить файлы стало намного легче. Docx файлы сжимаются при помощи WinRar или WinZip, и мы можем увидеть, что они содержат и Xml и другие бинарные файлы. Файл docx начинается с: 50 4B 03 04 014 00 06 00 08 00 00 00 21 Трейлер или последняя секция начинается с docProps/app...
Перевести формат PDF в Word часто бывает затруднительно по той причине, что не все приложения делают это правильно, особенно если текст нагружен другими элементами.