Найти тему
Группа компаний X-Com

Решения Content AI для обработки документов и работы с PDF как альтернатива западному софту

С введением санкций в отношении России в 2022 году российская ИТ-индустрия столкнулась с серьезными вызовами. В немалой степени это коснулось сегмента интеллектуальной обработки информации. Однако несмотря на то, что иностранные вендоры ушли с рынка, отечественные компании быстро адаптировались к новым условиям и требованиям российского потребителя. Одним из ярких примеров успешной адаптации можно назвать компанию Content AI, продукты которой уже используются ведущими российскими игроками финсектора, ритейла и промышленности.

Content AI: кто они?

Начало 2022 года ознаменовалось уходом с российского ИТ-рынка одного из мировых лидеров в области интеллектуальной обработки информации – ABBYY. Бывшая команда представителей их российского офиса создала новую компанию Content AI, которая взяла на себя обязательства по обслуживанию и техподдержке всех российских пользователей, а также лицензировала технологии ABBYY и приступила к выпуску собственных продуктов. Сегодня Content AI разрабатывает интеллектуальные решения для обработки информации на основе передовых технологий распознавания текста.

Для кого предназначены решения

Софт-линейка компании разделена на три сегмента: для бизнеса, разработчиков и личного использования. Так, компании из финотрасли, ритейла, промышленности, энергетики, госсектора используют решения Content AI для автоматизации обработки документации в потоковом режиме, офисные сотрудники и простые пользователи распознают и редактируют документы с помощью PDF-редактора, а разработчики встраивают в свои приложения высококачественные технологии распознавания данных.

Все программные продукты Content AI основаны на технологиях искусственного интеллекта, с помощью которых производится распознавание данных в документах любых форматов. Надежность Content AI подтверждается аккредитацией Минцифры РФ и включением флагманских продуктов компании в реестр отечественного ПО.

Далее детально рассмотрим все ключевые решения и их функциональные возможности.

Решения для персонального использования

В эту категорию входят многофункциональный редактор ContentReader PDF для дома и офиса, а также электронные словари для изучения иностранных языков Lingvo by Content AI.

ContentReader PDF – наследник известного продукта компании ABBYY FineReader PDF, выпущенный специально для российского рынка. Редактор от Content AI сохранил все возможности FineReader PDF и включает широкий набор инструментов для работы с PDF-файлами, позволяя распознавать, конвертировать и редактировать документы, вносить комментарии, вести совместную с другими пользователями работу.

ContentReader PDF для офиса

“Домашняя” версия ContentReader PDF может быть полезна студентам, преподавателям, а также всем, кто занимается оцифровкой и обработкой рукописных документов, печатных публикаций, книг для создания электронных архивов или других личных проектов.

Многофункциональный редактор позволяет распознавать отсканированные файлы с помощью интеллектуальной технологии OCR (Optical Character Recognition) в высоком качестве и с сохранением структуры документа. Далее пользователь может работать с содержимым файла как в привычном текстовом редакторе: добавлять или удалять информацию, использовать разные варианты форматирования, конвертировать готовую версию в любые форматы. ContentReader PDF дает возможность вести коллективную работу над документом с помощью инструментов для добавления аннотаций, пометок и комментариев.

Среди других полезных фич продукта – создание и редактирование интерактивных форм, защита документа с помощью цифровой подписи, сжатие “тяжелых” PDF-файлов, а также интеграция с программами пакета MS Office.

ContentReader PDF для офиса

Бизнес-версия редактора ContentReader PDF предлагает широкие возможности по лицензированию для организаций, которые подходят как для большого количества сотрудников, так и для ограниченного числа пользователей. Также доступна корпоративная версия продукта с расширенной функциональностью. Например, с возможностью оптимизировать рутинные однотипные действия по обработке и конвертации большого объема файлов с помощью папки Hot Folder. Поступающие в нее файлы будут автоматически преобразовываться согласно заранее заданным параметрам и графику.

Одним из самых полезных и востребованных инструментов в корпоративной версии является возможность сравнения документов. ContentReader PDF распознает содержимое версий электронных или отсканированных файлов и находит любые отличия, вплоть до знаков препинания. Решение таких задач особенно актуально для юридических подразделений, отделов закупок, бухгалтерии.

Lingvo by Content AI

Офисным сотрудникам, работающим с документами на иностранных языках, преподавателям и студентам будет полезно приложение Lingvo by Content AI, которое содержит широкий набор цифровых словарей для учебы или работы. Продукт включает около сотни тематических и толковых словарей, а также словарей общей лексики по различным направлениям: медицина, право, биология, химия и пр. С помощью Lingvo пользователи могут переводить текст с 10 иностранных языков.

Решения для разработчиков

Программные решения этой линейки предназначены создателям приложений, которым необходимо внедрить в свой продукт технологию распознавания и обработки данных, например, документов, удостоверяющих личность – паспортов, водительских прав, различных свидетельств. В линейку входят:

  • ContentReader Engine
  • Content AI PassportReader SDK
  • Модуль сравнения документов ContentReader Engine

ContentReader Engine SDK

Универсальный набор инструментов для разработчика ContentReader Engine позволяет встраивать в сторонние приложения интеллектуальные технологии распознавания документов, изображений, фотографий. SDK включает возможность полнотекстового и зонального распознавания печатного и рукопечатного текстов, а также распознавания штрихкодов. Продукт также позволяет классифицировать документы и сохранять отсканированные файлы в форматах Word, Excel и PDF с возможностью поиска. При этом при распознавании и конвертации сохраняется логическая структура и форматирование элементов – таблиц, колонтитулов, шрифтов – чтобы с высокой точностью воссоздать исходный документ.

Точность распознавания можно повысить за счет предобработки и оптимизации изображений перед началом OCR-процесса. Выравнивание, изменение поворота, коррекция искажения, выпрямление строк, разделение на страницы, адаптивная бинаризация, шумопонижение и не только — все это позволяет распознавать изображения даже низкого качества.

Одно из ключевых преимуществ ContentReader Engine – возможность быстрой интеграции за счет подробной сопроводительной документации, предварительно настроенных инструментов, параметров, примеров кода. Это позволяет заказчику в кратчайшие сроки выпустить на рынок готовый продукт с многофункциональным модулем распознавания.

Софт, разработанный с использованием ContentReader Engine, стабильно работает на ОС Windows и Linux и может быть развернут в облачной или виртуальной среде.

Content AI PassportReader SDK

Программный продукт позволяет разработчикам создавать приложения для распознавания документов, подтверждающих личность. С помощью Content AI PassportReader SDK можно реализовать функцию обработки паспорта или водительского удостоверения. При этом технологии могут качественно обработать не только оригиналы, но иксерокопии документов. Решение обладает высокой производительностью и помогает сократить время на ввод данных в 7-10 раз по сравнению с ручным вводом. Продукт легко интегрируется в готовые проекты благодаря наличию API.

Модуль сравнения документов ContentReader Engine

Модуль работает на основе продуктаContentReader Engine и предназначен для интеграции в корпоративное ПО или информационные системы функции сравнения документов. С помощью ИИ-технологий производится проверка версий пользовательских файлов, в ходе которой фиксируются любые, даже самые незначительные изменения. Модуль сравнения способен самостоятельно работать в фоновом режиме и экономить время пользователей.

Решения для коммерческого сектора

В линейке для крупного бизнеса компания Content AI предлагает современные решения для автоматизации работы с документами. В этой категории представлены программные продукты:

  • Универсальная платформа для автоматической потоковой обработки документов ContentCapture
  • Серверное решение для распознавания и конвертации документов ContentReader Server
  • Решение для создания корпоративного поискового портала Content AI Intelligent Search

ContentCapture

Это универсальное решение для обработки любых типов документов и извлечения из них данных. ContentCapture позволяет автоматизировать различные бизнес-процессы, связанные с обработкой документации. Платформа распознает информацию в бумажных, электронных и отсканированных файлах, изображениях, фотографиях, почтовых сообщениях, а также извлекает из них данные, классифицирует, верифицирует и направляет в нужные информационные системы. Решение обладает высокой производительностью и способно обрабатывать до 3 млн документов в день. В числе ключевых преимуществ продукта распознавание рукопечатного и рукописного текста, предварительная обработка и оптимизация отсканированных изображений, возможность гибкого встраивания и многоуровневой защиты данных.

ContentReader Server

Серверное решение ContentReader Server позволяет быстро и точно распознавать данные в изображениях и отсканированных документах и конвертировать их в PDF и другие электронные редактируемые форматы, удобные для поиска, просмотра, обмена и хранения.

Решение подходит компаниям, которые в ежедневном режиме обрабатывают большие объемы однотипных входящих документов. ContentReader Server помогает оптимизировать документооборот за счет организации хранения документов в едином формате и передачи оцифрованных файлов в специализированные системы. Решение способно работать даже со сканами низкого качества. Обработка файлов происходит в фоновом режиме, может идти круглосуточно или в заданное пользователем время, чтобы уменьшить нагрузку на оборудование.

Решение для создания корпоративного поискового портала открывает возможности для быстрого и эффективного поиска нужных документов и сведений в информационном пространстве компании. Продукт позволяет объединить все источники данных в организации, включая СЭД, таск-трекеры, архивы, базы знаний, и организует по ним интеллектуальный поиск, причем, не только по ключевым словам, но и по смыслу. За счет встроенной технологии OCR обеспечивается поиск по PDF-файлам и другим файлам в графических форматах.

Content AI Intelligent Search востребован промышленными холдингами с большим количеством источников хранения данных, службами безопасности, которые контролируют возможную утечку данных или расследуют инциденты, юридическими компаниями, которым нужен быстрый доступ к актуальным версиям документов.

В заключение добавим, что наши эксперты всегда готовы подобрать вам оптимальное решение для обработки контента от Content AI и других разработчиков. Обращайтесь!