519 подписчиков

SmolDocling-OCR-App: Извлечение текста и структурных данных документов с помощью ИИ

8 января8 янв

1 мин

SmolDocling-OCR-App — это современное приложение на языке Python, использующее сверхкомпактную мультимодальную модель SmolDocling 256M от IBM Research. Приложение предназначено для высокоточного оптического распознавания текста (OCR) и глубокого понимания структуры документов, превращая изображения в редактируемый Markdown или специализированный формат DocTags. * Глубокое распознавание элементов: Модель способна идентифицировать и извлекать не только обычный текст, но и сложные элементы: таблицы (с сохранением структуры строк и столбцов), математические формулы (в формате LaTeX), блоки программного кода (с соблюдением отступов), а также данные из диаграмм и графиков. * Поддержка формата DocTags: Использует уникальный формат разметки, который фиксирует пространственное положение (координаты) каждого элемента на странице, что критично для сохранения исходного макета документа. * Разнообразные задачи обработки: Приложение поддерживает специфические инструкции, такие как извлечение только

Оглавление

Основные возможности
Преимущества
Технические требования

SmolDocling-OCR-App — это современное приложение на языке Python, использующее сверхкомпактную мультимодальную модель SmolDocling 256M от IBM Research. Приложение предназначено для высокоточного оптического распознавания текста (OCR) и глубокого понимания структуры документов, превращая изображения в редактируемый Markdown или специализированный формат DocTags.

Основные возможности

* Глубокое распознавание элементов: Модель способна идентифицировать и извлекать не только обычный текст, но и сложные элементы: таблицы (с сохранением структуры строк и столбцов), математические формулы (в формате LaTeX), блоки программного кода (с соблюдением отступов), а также данные из диаграмм и графиков.

* Поддержка формата DocTags: Использует уникальный формат разметки, который фиксирует пространственное положение (координаты) каждого элемента на странице, что критично для сохранения исходного макета документа.

* Разнообразные задачи обработки: Приложение поддерживает специфические инструкции, такие как извлечение только заголовков разделов, поиск футеров или конвертация конкретных областей изображения по заданным координатам.

* Пакетная обработка: Позволяет загружать как одиночные изображения, так и целые наборы документов для последовательного извлечения данных.

* Компактность и скорость: Несмотря на размер всего в 256 миллионов параметров, модель конкурирует по качеству с решениями, которые в 27 раз больше, обеспечивая скорость обработки около 0.35 сек на страницу при наличии GPU.

Преимущества

* Локальное выполнение: Приложение может работать полностью локально, что гарантирует конфиденциальность ваших данных и отсутствие необходимости платить за внешние API.

* Универсальность типов документов: Эффективно обрабатывает бизнес-отчеты, научные статьи, патенты, техническую документацию и формы.

* Минимальные требования к ресурсам: Модель потребляет менее 500 МБ видеопамяти (VRAM), что позволяет запускать её даже на домашних ПК и ноутбуках.

* Удобный интерфейс: Построено на базе Streamlit, что обеспечивает интуитивно понятное управление через веб-браузер без необходимости работы с командной строкой.

Технические требования

* Язык программирования: Python 3.12+

* Модель: SmolDocling-256M (доступна на Hugging Face)

* Основные библиотеки: torch, transformers, docling-core, streamlit, Pillow

Скачать с GitHub

⬇️Поддержать автора⬇️

✅SBER: 2202 2050 1464 4675