Найти тему
4pda.to

Нейросеть «Яндекса» научилась расшифровывать рукописные архивные записи

   Нейросеть «Яндекса» научилась расшифровывать рукописные архивные записи
Нейросеть «Яндекса» научилась расшифровывать рукописные архивные записи

«Яндекс» научила нейросеть расшифровывать архивные записи со сложной дореволюционной орфографией — теперь сложные рукописи она мгновенно превращает печатный текст. Благодаря этому в базе сервиса можно быстро находить документы с упоминанием фамилии, населённого пункта или любых других слов.

-2

Новый алгоритм построен на основе системы оптического распознавания и при расшифровке учитывает особенности почерка, узнаёт утратившие актуальность буквы и понимает особую структуру архивных документов. Опробовать технологию в действии можно в сервисе «Поиск по архивам», который доступен уже сейчас и содержит более 2,5 млн страниц исторических документов с текстовой расшифровкой.

Обучение нейросети проходило на базе сотен реальных текстов XVIII–XIX веков и десятков миллионов сгенерированных примеров. В работе также принимали участие эксперты, которые контролировали качество распознания. По словам компании, новый сервис будет полезен для историков, социологов, демографов, генеалогов и поможет тем, кто ищет сведения о своей семье. Первым представленным в сервисе фондом стал Главархив Москвы, а затем были добавлены документы из архивов Оренбургской и Новгородской областей. Со временем объём хранилища будет расширен.

Для удобного поиска в сервисе предусмотрен поиск по каталогу или через строку поиска с возможностью применения фильтров по годам, архивам, фондам и описям. Рядом со сканом каждой страницы отображается построчная расшифровка, сделанная нейросетями «Яндекса». А если навести курсор на нужный фрагмент, он сразу подсветится и на цифровой копии.

«Для расшифровки одной страницы архивного рукописного текста профессионалу может потребоваться до получаса времени. Наш сервис справляется с этим за несколько секунд. В перспективе технологию можно использовать и для решения других задач в продуктах "Яндекса"», — отмечает Елена Бубнова, руководитель «Яндекс Поиска».