SmolDocling-OCR-App — это современное приложение на языке Python, использующее сверхкомпактную мультимодальную модель SmolDocling 256M от IBM Research. Приложение предназначено для высокоточного оптического распознавания текста (OCR) и глубокого понимания структуры документов, превращая изображения в редактируемый Markdown или специализированный формат DocTags. * Глубокое распознавание элементов: Модель способна идентифицировать и извлекать не только обычный текст, но и сложные элементы: таблицы (с сохранением структуры строк и столбцов), математические формулы (в формате LaTeX), блоки программного кода (с соблюдением отступов), а также данные из диаграмм и графиков. * Поддержка формата DocTags: Использует уникальный формат разметки, который фиксирует пространственное положение (координаты) каждого элемента на странице, что критично для сохранения исходного макета документа. * Разнообразные задачи обработки: Приложение поддерживает специфические инструкции, такие как извлечение только
SmolDocling-OCR-App: Извлечение текста и структурных данных документов с помощью ИИ
8 января8 янв
1
1 мин