...Читать далее
Что такое SmolDocling
- SmolDocling — открытая визуально‑языковая модель (VLM) с 256 млн параметров, разработанная совместно IBM и Hugging Face. Это лёгкое, но мощное решение для преобразования сложных документов в структурированные данные.
- В отличие от громоздких мультимодальных моделей (с миллиардами параметров), SmolDocling:
- занимает всего 256 МБ;
- требует меньше вычислительных ресурсов;
- обрабатывает целую страницу за один проход.
Ключевая инновация: формат DocTags
- Сердце SmolDocling — уникальный формат DocTags. Это универсальный язык разметки в стиле XML, который:
- точно фиксирует элементы страницы (текст, таблицы, формулы, код, диаграммы);
- сохраняет структурную и пространственную информацию;
- устраняет неоднозначности, свойственные HTML/Markdown.
- Результат — компактная последовательность тегов, отражающая и содержание, и макет документа.
Как это работает
- Архитектура SmolDocling включает:
- Визуальный кодер — кодирует изображение страницы в плотные визуальные вложения.
- Проекцию и объединение — сжимает вложения до фиксированного числа токенов.
- Языковую модель (LLM) — генерирует последовательность DocTags на основе визуальных и текстовых вложений.
- Процесс идёт авторегрессионно: модель пошагово предсказывает теги, учитывая контекст.
Преимущества и производительность
- Эффективность:
- Время обработки: 0,35 сек/страница на потребительском GPU.
- Потребление видеопамяти: <500 МБ.
- Масштабируемость: подходит для пакетной обработки больших объёмов.
- Точность (на бенчмарках):
- Полностраничное OCR: edit distance = 0,48, F1 = 0,80 (лучше Qwen2.5VL и Nougat).
- Транскрипция формул: F1 = 0,95 (сопоставимо с GOT).
- Распознавание кода: precision = 0,94, recall = 0,91.
Области применения
- SmolDocling справляется с документами любой сложности:
- научные статьи (формулы, таблицы, графики);
- патенты и юридические контракты;
- финансовые отчёты;
- рукописные заметки (с оговорками);
- технические документации (код, схемы).
- Возможные сценарии:
- оцифровка архивов;
- извлечение данных для BI‑систем;
- подготовка контента для RAG‑конвейеров;
- автоматизация документооборота.
Почему это прорыв
- SmolDocling демонстрирует, что компактные модели могут превосходить гигантов:
- Целевая тренировка — использование синтетических данных с формулами, таблицами и кодом.
- Оптимизированная токенизация — снижение вычислительной сложности.
- Сжатие визуальных признаков — баланс качества и скорости.
- Открытый код и датасеты делают технологию доступной для дообучения под специфические задачи.
Итог
- SmolDocling‑OCR‑App — это:
- Лёгкость — малый размер и низкие требования к ресурсам.
- Точность — высокие показатели на сложных документах.
- Гибкость — поддержка разнородных элементов (текст, код, формулы).
- Открытость — возможность адаптации под свои нужды.
- Решение идеально подходит для бизнесов и исследователей, которым нужно быстро и точно переводить документы в структурированный формат без огромных затрат на инфраструктуру.