ПРЕДЛОЖЕННЫЙ ПОДХОД
Метод, который мы представляем в этой статье, был реализован...
Созданная как целостная система, предназначенная для обработки больших объемов данных. Кучу старых газетных фотографий документов считываем втоматически... Программа анализирует логическую организацию страниц, таким образом, чтобы, чтобы процесс извлечения был стабилен.
Физический и логический анализ планировки, в отличие от траулера имеет другие подходы, разделяющие физический и логический анализ. Да, мы разработали методологию, которая выполняет логическую задачу, как на уровне пикселей, так и на уровне текстовых блоков. Во-первых,
переходим к логической маркировке изображения на уровне пикселей, что дает низкий уровень представления о логической структуре. Для извлечения этот этап обработки изображений включает в себя следующие этапы
- знания о физической организации логического алгоритма.
- Иформация, которую нужно извлечь, она основана на машинном обучении (условные, случайные поля).
- Метка с надписью.
Полученный возраст анализируется в дальнейшем на втором этапе, в ходе которого
- рекурсивно строит логические сущности документа путем повторного создания, переходя к общей макетной модели. Этот этап реконструкции можно рассматривать как специфический двумерный анализатор, который находится рядом с документом изображения. Наконец, предоставляет выходные файлы. Эти файлы
содержат как логическую структуру, описывающую чтение, так и физическую, состоящую из распознавания выделенных строк текста, и связанных с ними символов. С помощью оптического распознавания символов в следующих двух пунктах предусматривается следующее:
- подробное описание двух основных этапов методологии.
Логическая маркировка на уровне пикселей
Предложенный способ извлечения статьи с газеты, изображения и документов основаны на первом этапе сегментации с использованием следующих методов:
- Модель условных случайных полей с многомасштабной моделью функции квантования. Такой подход применялся до того, как мы перешли к наиболее важным шагам, предпринятых в этом направлении. Условно случайные поля открыли новый путь к последовательности при анализе изображений. В своей первоначальной формулировке CRF представляет собой следующее:
- стохастическую модель процесса между последовательностями дискретных наблюдений (первоначально последовательность наблюдений);
- последовательность слов и последовательность ярлыков, которые могут быть ассоциативны -
в соответствии с этими наблюдениями (первоначально часть тегов речи).
Применение CRF к маркировке изображений требует некоторых действий.
Адаптация с тем, чтобы иметь дело с цифровыми значениями дискретных наблюдения. Эту адаптацию можно рассматривать как
этап предварительной обработки, посвященный предоставлению дискретного CRF-файла
наблюдения, извлеченные из исходных числовых значений пикселов
изображения. В области компьютерного изучения использовать следующие методы
- выходы нейронной сети или SVM для питания CRF. ОФД также были применены для извлечения структуры документа. Используется метод 2D-CRF на основе 2D-CRF поверх первой нейронной классификации сети.
После этапа классификации пикселей обучаться этим системам собенно сложно, потому что они требуют подготовки двух подлодок системы: локальный классификатор, а затем CRF, который подается с помощью первого классификатора. В предложенной системе, мы
использовали условно случайное поле с многомасштабным квантованием. Такой подход требует обучения
только один CRF. Физические дескрипторы изображения выполняются из длинного цикла. Функции квантуются с помощью нескольких квантов и подается в CRF.
Несмотря на очень хорошие показатели CRF-маркировки, есть некоторые несоответствия в маркировке пикселей, должны быть обнаружены и исправлены перед реконструкцией, либо в процессе принятия решения. Большинство несоответствий, когда некоторые элементами с различными метками соединены между собой.
вместе (например, текстовые объекты и объекты заголовка соединены вместе). Такие ошибочные случаи исправляются следующими способами:
- маркировка субъектов, имеющих наиболее часто встречающуюся этикетку
(фоновые пиксели не учитываются).
- Текстовые строки
получаемые путем извлечения подключенных компонентов, а именно
с пометкой "текст" на полученном изображении.
Несмотря на прочность, процесс извлечения некоторых текстовых строк могут быть соединены между собой из-за некоторой важной деформации изображения.
Из-за некоторых разрушений или оцифровки артефактов, возможно
подключенные тестовые линии определяются вычислением среднего арифметического. Поверхности текстовых строк во всем изображении документа. Текстовые объекты, поверхность которых намного выше среднего значения, считаются ошибочными. Тогда эти ситуации скорректируем специфическим алгоритмом, позволяющим разделить их. Структурные подразделения, такие как
текстовые строки, заголовки, вертикальные и горизонтальные разделители могут затем
извлекается на изображении.