Устали парсить PDF для своих RAG-пайплайнов, превращая таблицы в текстовую кашу? IBM Research и Linux Foundation выкатили в опенсорс Docling — инструмент, который делает всю грязную работу по извлечению данных из документов. Что он умеет такого, чего не могли другие: 🧠 Реально понимает PDF: Видит структуру документа, порядок колонок, таблицы, формулы и картинки. Не просто текст выдирает, а отдает все в виде удобных объектов. 🔌 Готовые интеграции: Есть "загрузчики" для LangChain, LlamaIndex, Haystack. Никакого клея и костылей, reader.load_data(file=...) и всё. 🤖 VLM-пайплайны: Может подрубать Visual Language Models (включая их собственную SmolDocling) для еще более глубокого анализа. 🔒 Работает локально: Никаких облаков. Вся обработка на вашей машине. Кому интересно, почитайте более подробный разбор: Docling: готовим данные для RAG и LLM 📖 #годный_опенсорс
Устали парсить PDF для своих RAG-пайплайнов, превращая таблицы в текстовую кашу
25 октября 202525 окт 2025
2
~1 мин