52 подписчика

Нехитрый приём, как ускорить индексацию архивных документов

6 мая 20246 мая 2024

1 мин

Ничто не ново под луной, но именно такой совет я почему-то никогда не встречала. Конечно, самый правильный способ - распознавать старые рукописный тексты нейросетью. Но правильный - не означает лучший. Если Яндекс не собирается публиковать свою, а пытливый исследователь - её писать с нуля, то всё, что остаётся - перепечатывать данные руками, используя то, что уже есть - свою голову. То, что помогало мне ускорить этот процесс - надиктовывание в сервис распознавания аудиосообщений. Чтение вслух самому себе. На мой взгляд, аудиосообщения в мессенджерах - абсолютное зло. Но это зло заставило ряд крупных сервисов, вроде Телеграм и ВК, прикрутить распознавание аудио в текст. В отличие от маленьких инициатив, эти ребята могут себе позволить делать его качественно. Я успела попробовать разное, пока эта функция не появилась у Телеграма. И распознает она очень хорошо. Следующий шаг - это читать текст не просто так, а с учётом формата, в который он будет преобразован. Конечная цель - получить

То, что помогало мне ускорить этот процесс - надиктовывание в сервис распознавания аудиосообщений. Чтение вслух самому себе.

На мой взгляд, аудиосообщения в мессенджерах - абсолютное зло. Но это зло заставило ряд крупных сервисов, вроде Телеграм и ВК, прикрутить распознавание аудио в текст. В отличие от маленьких инициатив, эти ребята могут себе позволить делать его качественно. Я успела попробовать разное, пока эта функция не появилась у Телеграма. И распознает она очень хорошо.

Следующий шаг - это читать текст не просто так, а с учётом формата, в который он будет преобразован. Конечная цель - получить данные в виде таблицы. Для этого мне нужен текст в формате CSV - comma-separated values. Конечно, необходимо будет вручную отредактировать надиктованное, но это несопоставимо по потраченным усилиям, чем писать все сразу самому. Смысл в том, что каждая запятая станет разделителем между полями в будущей таблице. Можно произносить слово-разделитель в процессе надиктовки, можно предоставить все сервису на откуп. Такой текстовый файл будет очень легко обработать тем же python, который неплохо парсит csv.

Такой формат не позволит загрузить таблицы в справочники Familio в сыром виде. Но немного поработав программистским напильником, можно написать свой конвертер csv под требования Familio.

Я не умею писать нейросети, но умею гонять тексты туда-сюда несложными скриптами. По трудозатратам этот способ видится мне гораздо оптимальнее. Даже без использования скриптов легче разбираться с напечатанным текстом, чем раз за разом переписывать каракули священников в индексаторы.