Найти в Дзене

SmolDocling‑OCR‑App: компактное решение для интеллектуального распознавания документов

Оглавление

Что такое SmolDocling

  • SmolDocling — открытая визуально‑языковая модель (VLM) с 256 млн параметров, разработанная совместно IBM и Hugging Face. Это лёгкое, но мощное решение для преобразования сложных документов в структурированные данные.
  • В отличие от громоздких мультимодальных моделей (с миллиардами параметров), SmolDocling:
  • занимает всего 256 МБ;
  • требует меньше вычислительных ресурсов;
  • обрабатывает целую страницу за один проход.

Ключевая инновация: формат DocTags

  • Сердце SmolDocling — уникальный формат DocTags. Это универсальный язык разметки в стиле XML, который:
  • точно фиксирует элементы страницы (текст, таблицы, формулы, код, диаграммы);
  • сохраняет структурную и пространственную информацию;
  • устраняет неоднозначности, свойственные HTML/Markdown.
  • Результат — компактная последовательность тегов, отражающая и содержание, и макет документа.

Как это работает

  • Архитектура SmolDocling включает:
  1. Визуальный кодер — кодирует изображение страницы в плотные визуальные вложения.
  2. Проекцию и объединение — сжимает вложения до фиксированного числа токенов.
  3. Языковую модель (LLM) — генерирует последовательность DocTags на основе визуальных и текстовых вложений.
  • Процесс идёт авторегрессионно: модель пошагово предсказывает теги, учитывая контекст.

Преимущества и производительность

  • Эффективность:
  • Время обработки: 0,35 сек/страница на потребительском GPU.
  • Потребление видеопамяти: <500 МБ.
  • Масштабируемость: подходит для пакетной обработки больших объёмов.
  • Точность (на бенчмарках):
  • Полностраничное OCR: edit distance = 0,48, F1 = 0,80 (лучше Qwen2.5VL и Nougat).
  • Транскрипция формул: F1 = 0,95 (сопоставимо с GOT).
  • Распознавание кода: precision = 0,94, recall = 0,91.

Области применения

  • SmolDocling справляется с документами любой сложности:
  • научные статьи (формулы, таблицы, графики);
  • патенты и юридические контракты;
  • финансовые отчёты;
  • рукописные заметки (с оговорками);
  • технические документации (код, схемы).
  • Возможные сценарии:
  • оцифровка архивов;
  • извлечение данных для BI‑систем;
  • подготовка контента для RAG‑конвейеров;
  • автоматизация документооборота.

Почему это прорыв

  • SmolDocling демонстрирует, что компактные модели могут превосходить гигантов:
  • Целевая тренировка — использование синтетических данных с формулами, таблицами и кодом.
  • Оптимизированная токенизация — снижение вычислительной сложности.
  • Сжатие визуальных признаков — баланс качества и скорости.
  • Открытый код и датасеты делают технологию доступной для дообучения под специфические задачи.

Итог

  • SmolDocling‑OCR‑App — это:
  • Лёгкость — малый размер и низкие требования к ресурсам.
  • Точность — высокие показатели на сложных документах.
  • Гибкость — поддержка разнородных элементов (текст, код, формулы).
  • Открытость — возможность адаптации под свои нужды.
  • Решение идеально подходит для бизнесов и исследователей, которым нужно быстро и точно переводить документы в структурированный формат без огромных затрат на инфраструктуру.