Он спокойно конвертирует файлы в Markdown, JSON или HTML, при этом аккуратно сохраняет структуру с таблицами, колонками и форматированием. Скорость вообще безумная: больше 100 страниц в секунду даже на CPU, и всё это работает локально без облаков. Похоже, лучший инструмент для разбора PDF на сегодня. Пригодится всем — забираем. Подробнее: https://hard-tm.su/threads/154236/ 🕹HARD-TM — Подписаться
Превращаем любой PDF в нормальный текст — нашли мощный опенсорс-инструмент OpenDataLoader
21 марта21 мар
~1 мин