15 подписчиков

Как работать со старыми газетами

7 октября 20197 окт 2019

3 мин

РЕЛАТИВНОЕ СЛОВО

Тест сегментации страниц , в рамках которого некоторые из предложенных алгоритмов могут иметь цели, похожие на системные. Тем не менее, набор данных, используемый для этого теста, содержит только современный очерк. Поэтому, предлагаемые методы могут оказаться неэффективными для старых газет. Среди вкладов, которые мы можем внести, упомянуть работу, которая основана на пикселе. Этап маркировки, который может быть адаптирован к старым документам. В работе подход, основанный на обнаружении максимального значения,

удаляются пустые прямоугольники для разграничения столбцов и текстовых блоков. Этот метод интегрирован в OCROPUS open. Хотя этот метод и интересен, но он не позволяет справляться с трудностями, присущими старым документам. Предлагаетс использовать многоуровневый подход к извлечению текста кварталами в старых газетах. Этот эффективный метод ограничен

для обнаружения текстовых блоков. Никакой логической структуры, ни чтения не

осуществляется по этому методу. Предлагаемый нами подход в данной статье - Это предпринять попытку найти решение этой проблемы. В течение последних двадцати лет архивы и национальные архивы Библиотеки по всему миру приступили к реализации программ оцифровки следующих документов. Чтобы сохранить исторические коллекции как можно в более хорошем состоянии, обеспечивающем удаленный доступ для более широкого круга потенциальных пользователей, благодаря интернету. Архивы старых газет поддерживают эту тенденцию. Тем не менее, программы оцифровки

таких коллекций требуют возможности индексирования документов...

Снимки, полученные после сканирования, действительно учитываются. Большое количество документов содержатся в этих коллекциях и большое количество статей, которые проходят тщательную проверку, отцифровываются. Необходима точная индексация и извлечение и это только мыслимые требования пользователей. Вот почему текстовые транскрипции оцифрованных коллекций являются необходимыми...

А также глубокое понимание структуры документа...Чтобы извлечь каждый предмет из коллекции, технологии OCR не могут полностью автоматизировать весь процесс. Автоматическая генерация транскрипций и раскладки страниц, а также, особая оцифровка, предназначенная для комплексного анализа макета страницы, символов

распознавание (OCR), логическое определение структуры и чтение данных

определение порядка. Извлечение физической структуры - это процесс обработки документов, как столбцы и строки текста перед процессом OCR. Анализ логической структуры - это процесс, обеспечивающий доступ к информации, подразделений документа и его организации. Это дает доступ к дескрипторам (логические теги, также известные как метаданные), такие как IT-данные, главы, статьи, параграфы, подписи и так далее...

Как правило, эти два процесса извлечения структуры документов

(так называемый физико-логический анализ компоновки) функционируют по отдельности и последовательно, один за другим. Это значит, что большую часть времени физическая сегментация начинает обработку изображений, документов, которою можно выполнять без необходимости. За любые дополнительные знания, в то время как логическая схема извлечения работает, в целом, это происходит благодаря использованию документа образца (например, таблица стилей), отражающая взаимосвязь между физической и логической сущностью двух представляющих документов. Тем не менее, сейчас хорошо известно, что сложные задачи сегментации должны включать стадию распознавания, так чтобы улучшить их работу. Таким образом, у нас есть возможность разработать новую методологию, посвященную логическому маркировочному обозначению фотографии старых газет. Этот метод предназначен для извлечения

метаданных в оцифрованных изображениях, благодаря совместным усилиям

использование метода классификации, последовательности пикселей на основе

моделирования условного случайного поля, связанного со

сводом правил, определяющих понятие статьи в газете. Основываясь на физических дескрипторах, пиксельная маркировка формируется непосредственно логическим анализом, который дает нам первый низкий логический результат уровнем сегментации. Затем, основываясь на обнаруженной логике набора правил способен вывести на более высокий логический уровень,

чтобы обнаружить статьи в газете.

В первой части этого документа мы рассмотрим связанные с этим вопросы, работу с литературой. Затем, вторая часть описывает наш метод. Третья часть посвящена оценке подхода, который был опробован в старых номерах газет.

Дальнейшие результаты тестов будут публиковаться по мере поступления информации.