Большие языковые модели (они знакомы вам по ChatGPT) вышли на новый уровень: машина научилась отвечать на вопросы по картинкам и документам, причем так, что вашим стажерам больше не нужно предварительно вручную переводить jpg и pdf в текст. Подробнее рассказывает Евгений Орлов, старший инженер по анализу данных и машинному обучению, ТеДо.
Представим, что вы аудитор, бухгалтер или налоговый специалист. Вы ежедневно изучаете огромное количество первичной документации, методик, правовых норм. Зачастую это pdf и сканы, с которыми плохо работает обычный поиск.
На рынке нужна была система, которая может извлекать очень точный ответ на, зачастую, неточно сформулированный вопрос пользователя. То есть искать по смыслу, а не по точному совпадению. Например: «Сколько компания А заплатила компании Б в январе 2023 года» или «Выяви реквизиты покупателей из всех договоров».
На помощь пришла связка «распознавание структуры документа + OCR + векторные базы данных + большие языковые модели (LLM)»