394 подписчика

GPT для документов: как ИИ помогает найти ответ на любой вопрос, если у вас тысячи сканов

15 декабря 202315 дек 2023

130

1 мин

Представим, что вы аудитор, бухгалтер или налоговый специалист. Вы ежедневно изучаете огромное количество первичной документации, методик, правовых норм. Зачастую это pdf и сканы, с которыми плохо работает обычный поиск.

На рынке нужна была система, которая может извлекать очень точный ответ на, зачастую, неточно сформулированный вопрос пользователя. То есть искать по смыслу, а не по точному совпадению. Например: «Сколько компания А заплатила компании Б в январе 2023 года» или «Выяви реквизиты покупателей из всех договоров».

На помощь пришла связка «распознавание структуры документа + OCR + векторные базы данных + большие языковые модели (LLM)»

Большие языковые модели (они знакомы вам по ChatGPT) вышли на новый уровень: машина научилась отвечать на вопросы по картинкам и документам, причем так, что вашим стажерам больше не нужно предварительно вручную переводить jpg и pdf в текст. Подробнее рассказывает Евгений Орлов, старший инженер по анализу данных и машинному обучению, ТеДо.

Представим, что вы аудитор, бухгалтер или налоговый специалист. Вы ежедневно изучаете огромное количество первичной документации, методик, правовых норм. Зачастую это pdf и сканы, с которыми плохо работает обычный поиск.

На рынке нужна была система, которая может извлекать очень точный ответ на, зачастую, неточно сформулированный вопрос пользователя. То есть искать по смыслу, а не по точному совпадению. Например:

«Сколько компания А заплатила компании Б в январе 2023 года» или «Выяви реквизиты покупателей из всех договоров».

На помощь пришла связка «распознавание структуры документа + OCR + векторные базы данных + большие языковые модели (LLM)». Она работает следующим образом ⬇

У вас собрана база необходимой первичной документации – сканы и pdf.

Первый шаг – распознавание структуры, которое помогает разбивать документы на фрагменты: находить таблицы и текстовые блоки.
Затем содержание фрагментов переводится в текст с помощью технологий OCR.
После чего фрагменты отправляются на хранение в векторную базу данных.
С помощью векторной базы мы можем подобрать наиболее релевантные фрагменты документов, и с помощью этих фрагментов LLM отвечает на вопрос пользователя.

Существуют модели, которым шаги 1-3 не нужны! Среди примеров таких моделей GPT-4 и Donut. GPT-4 отвечает на вопросы по любым изображениям (может описать сюжет и даже понимает юмор), а Donut специализируется на документах. Но в целом на рынке много открытых решений, которые можно использовать даже в коммерческих продуктах, и они довольно высокого качества.

Важно помнить, что все модели требуют дообучения под специфику вашего бизнеса: их нужно познакомить со структурой документов компании. Также многие модели не знают русского языка.

Наша команда будет рада помочь с построением умной системы распознавания документов.

По выступлению Евгения на TechWeek 2023.

Гаджеты и электроника

5,73 млн интересуются