В прошлой статье я рассказывала о приёме, который помогает обходить ошибки распознавания текста в яндекс-архивах.
А теперь хочу поделиться новой находкой.
Обычно archive.org воспринимается как большая электронная библиотека редких изданий интересная, но не слишком полезная для частных родословных поисков. Так я думала, пока не обнаружила там длинный фрагмент, посвящённый имению моих предков, с подробностями одного из дел, о которых я даже не подозревала.
Оказалось, что на archive.org скрыто множество русскоязычных материалов, которых нет в других открытых источниках - подробны сенатские объявления (1825-1853 гг), губернские и уездные ведомости, редкие газеты и журналы. Поиск по фамилиям помещиков, названиям населённых пунктов и редким ключевым словам нередко даёт поразительные результаты.
Да, распознавание кириллического текста там далеко не идеально, а поиск кажется запутанным, но поверьте - потраченное время стоит того.
Если вы ищете следы своих предков в старой прессе и официальных объявлениях, не пропустите этот ресурс. Ниже я покажу, как именно искать, чтобы находить максимум возможного.
В своих примерах я буду использовать фамилию помещиков - фон Штральборн, иногда Дерионзини, и населённый пункт - деревня (или сельцо) Ершники.
Чтобы отсеять иностранные издания и сразу работать с российскими материалами, начните поиск с коллекции Russian Empire Genealogy Resources -
⚜️ https://archive.org/details/russianempiregenealogyresources
В том случае если вы хотите все же искать по иностранной коллекции, используйте такой шаблон и подставьте название нужной коллекции:
⚜️https://archive.org/search?query=collection%3Aamericana+Strahlborn&sin=TXT
или так, если поиск по части слова:
⚜️ https://archive.org/search?query=collection%3Aamericana+Strahlb*&sin=TXT
Название коллекции можно найти внизу под любым изданием:
Коллекцию приходится выбирать, потому что общий поиск не позволяет искать по части слова почему-то, ноходит только урезанные варианты слов.
⚜️Очень важно выбрать опцию “Search text contents” — именно она позволяет искать по распознанному тексту.
Кстати, поиск внутри коллекций даёт гораздо больше результатов, чем общий поиск с главной страницы. Там также лучше работают расширенные приёмы - например, использование звёздочек и комбинаций ключевых слов.
Способы поиска
Далее способы поиска можно условно разделить на два основных.
Первый — поиск по полному слову и его вариантам.
В отличие от Яндекса, где система “догадывается” о формах слова по корню, на archive.org этого нет. Поэтому важно вводить слово именно в том виде, как оно могло быть напечатано в оригинале — включая твёрдые знаки и дореформенные написания.
Например, фамилия фон Штральборн:
я ввожу в строку поиска — Штральборнъ (в данном случае лучше без приставки фон).
⚜️https://archive.org/details/russianempiregenealogyresources?tab=collection&query=%D0%A8%D1%82%D1%80%D0%B0%D0%BB%D1%8C%D0%B1%D0%BE%D1%80%D0%BD%D1%8A&sin=TXT — даёт сразу заметно больше результатов, чем поиск без “Ъ”.
Но и вариант без твёрдого знака тоже стоит проверить:
⚜️https://archive.org/details/russianempiregenealogyresources?tab=collection&query=%D0%A8%D1%82%D1%80%D0%B0%D0%BB%D1%8C%D0%B1%D0%BE%D1%80%D0%BD&sin=TXT — результаты частично отличаются.
По превью и словам, расположенным рядом с фамилией, обычно легко определить, какой из найденных фрагментов “наш”.
Чтобы не открывать каждую ссылку отдельно, просто наведите курсор на описание — появится больше текста с контекстом ключевого слова.
- Поиск с учётом ошибок распознавания текста
Ошибки распознавания на archive.org нередки, но часто они подчиняются закономерностям. Если их учитывать, можно получить гораздо больше результатов. Вот некоторые из наиболее частых случаев, которые мне удалось заметить и успешно использовать:
- Ъ в конце слова часто распознаётся как мягкий знак “ь”, а иногда — как “з” или “г”.
Примеры:
⚜️ Штральборнь ⚜️ Штральборнз ⚜️ Штральборнг
Кроме того, результаты расширяются, если учитывать падежные формы:
Штральборна, Штральборну, Штральборномъ (и не забываем твёрдый знак).
Поиск населённых пунктов
С названиями деревень ситуация похожая. Например, для Ершников я использовала разные варианты написания, встречающиеся в источниках:
Ершникахъ, Ершниковъ, Ершниковой (д-ни) и т.п.
При этом стоит пробовать и версии с заменами твёрдого знака на “ь”, “з”, “г” — иногда OCR распознаёт именно так.
- Поиск по частям слова и комбинациям
Иногда ошибок в распознавании слишком много, или слово “разорвано” переносом на новую строку. В таких случаях помогает поиск по частям слова со звёздочкой (*) и сочетаниями.
Однако важно знать: на archive.org поиск с “*” не работает так гибко, как в Яндексе. Если просто ввести часть слова со звёздочкой, сайт найдёт только урезанные фрагменты — без вариантов окончаний.
Чтобы получить корректные результаты, используйте вот такой шаблон:
Замените выделенные слова на свои ключевые.
- Звёздочка добавляется без пробела, прямо к части слова.
- Между словами обязательно ставьте пробел.
- Если используете комбинацию нескольких слов — пишите AND только заглавными буквами.
Если вы хотите попробовать комбинацию из 3-х и более слов, добавляйте новую AND для каждого дополнительного слова
Если вы ищите делаете поиск по одной части слова, достаточно такой комбинации:
Добавка AND помогает находить оба слова в одном тексте, однако работает она не всегда стабильно: среди результатов встречаются как страницы, где есть оба слова, так и те, где найдено только одно из них.
Тем не менее, такой способ всё же даёт больше полезных совпадений, чем поиск по одному слову, и в моём случае позволил быстрее выйти на нужные документы.
Но это не единственный нюанс при поиске со звёздочкой. Найти книгу - это только часть дела. Важно уметь искать внутри самой книги, так как нужное искаженное упоминание может быть спрятано где угодно.
Когда мы искали по полному слову, система сразу открывала страницу с найденным фрагментом. Вот пример:
Но когда мы ищем со звездочкой, оказываемся в любой части книги с таким результатом:
Чтобы найти нужный фрагмент внутри книги, посмотрите на превью с результатом поиска и скопируйте искажённый вариант слова прямо оттуда.
Можно скопировать не само искомое слово, а любое соседнее, например — «Порузикъ», главное — попасть в нужный участок текста. Это позволит быстро найти место, где действительно встречается нужное упоминание, даже если распознавание сильно искажено.
И затем ввести это слово в поиск по книге:
Ещё один способ — поиск по комбинациям целых слов, взятых в кавычки.
В этом случае система найдёт только те отрывки текста, где встречается точное соответствие этим словам.
Я пользуюсь этим методом редко, потому что нужные мне слова чаще всего распознаются с ошибками.
Еще один способ поиска для редких ключевых слов с уникальным написанием - по второй части слова, чтобы учесть случаи переноса слова на новую строку, например поиск борнъ, борнь или зини, для фамилий Штральборн и Рионзини, вот пример:
Принцип тот же, найти кусок слова в том виде, в котором он будет напечатан при переносе. Перенос вероятно будет выглядеть так: Штраль- борн, ищем слово Штраль без звездочек или каких-то еще знаков -
А так как борн- это конец слова, то тут может быть твердый знак или разные окончания, надо экспериментировать:
На всякий случай, показываю, что можно искать упоминания и по иностранным коллекциям, но результаты в этом случае часто дублируют Google Books
Дополнение к статье.
Хочу внести небольшие дополнения к статье после получения обратной связи:
— Если вам удалось найти искомое ключевое слово, проверьте встречается ли оно в найденном тексте несколько раз. Вполне может быть, что встречается, но уже в искаженном виде. Скопируйте эти варианты и сделайте поиск по ним. Вполне возможно, что одни и те же искажения имеют закономерность и встретятся вам в том же виде в других книгах и текстах.
— Русскоязычные ключевые слова встречаются не только в коллекции russianempiregenealogyresources, но и в некоторых других. Можете использовать эти шаблоны поиска, ТОЛЬКО ПОДСТАВЛЯТЬ СВОИ КЛЮЧЕВЫЕ СЛОВА или их части со звездочкой.
Приведу несколько особенно запомнившихся примеров.
Одно из самых трогательных и необычных — дело 1842 года из сенатских объявлений во Владимирскую палату гражданского суда:
30545. Поручица Прасковья Иванова фон-Штральборнь, а в случае смерти ея, наследники или их поверенные, по делу о взыскиваемых с нее фон-Штральборн Владимирекою мещанкою Прасковьею Федоровою Друговою деньгах 240 р. асс. за обучение дворовой ея фон-Штральборнь девки Прасковьи Ефимовой шитью в пяльцах.
Одно из самых ценных для меня — дело о моих предках и их трудном положении, постановление 1862 года о количестве и составе оброка, включая женщин. Это редкий случай, когда суд справедливо защитил права крестьян.
V. Читано было прошение помещицы ротмистрши Ирины Ивановой Штральборн, в коем объясняет, что за крестьянами, поселенными на её земле и деревнях: Ершниках, Уставской и Сумарокове, состоит оброчная недоимка: Родионом Васильевым за прежнее время 15 руб., обще с братьями Федором и Иваном за 1861 год 50 руб., за последним корчемные за землю 7 руб., за Тихоном Афанасьевым за прежнее время 5 руб. и за 1861 год 20 руб., за Иваном Михайловым за 1860 год 20 руб. и за Петром Максимовым с отцом 25 руб., за Григорием Лаврентьевым за 1861 год 20 руб. и за Алексеем за 1861 год 10 руб., всего 192 руб. серебром — все они пользуются землею. Кроме того, не внесли холщового оброка за 1860 год — по 20 аршин женщины. О взыскании с означенных крестьян как оброчных, так и за холст денег она обращалась к г. мировому посреднику
2 участка, который уведомил её, что деньги с некоторых крестьян будут взысканы, но между тем до сего времени не получает их, тогда как срок платежа долга Опекунскому Совету (внесение платежа по кредиту самой помещицы) за 1861 год истекает, почему и просит сделать распоряжение о взыскании с крестьян оброка и ей, по месту жительства, объявить. При чём мировой посредник г. Полубояринов объявил, что для уплаты состоящей на крестьянах недоимки, хотя им и вручено Ростовскому Земскому Суду описать у них имение, но при описи оказалось, что описанное имущество недостаточно для покрытия недоимки, а что отдача в заработки некоторых недоимщиков невозможна — за старостью, совершенной неспособностью к работе, по причине слепоты (!). Мировой Съезд необходимым нашёл рассмотреть по ревизской сказке лета крестьян, за которыми состоит недоимка, и оказалось, что из 22 душ могут платить оброк только 7 душ. И что недоимка большей частью состоит за стариками, а потому ОПРЕДЕЛИЛ: пригласить помещицу Штральборн исключить из недоимки оброк, состоящий за такими крестьянами, которые не в состоянии уплатить оный по старости и совершенной невозможности к работе; с прочих же предоставить г. мировому посреднику принять законные меры взыскания. Что же касается до сбора холста за 1860 год, то объявить ей, что таковой сбор, по силе 5 ст. Правил о порядке приведения в действие Положения, не может быть произведён, как отменённый.
Желаю всем удачи!