Найти тему
31 подписчик

Одна из технических идей, без которой было бы невозможно создать цифровой путеводитель по Толстому (да и по любому другому писателю) — Text Encoding Initiative, специальная система, которая используется исследователями в области Digital Humanities. TEI — это набор правил, по которым уже много лет принято «кодировать» тексты, то есть переводить их в электронный вид и размечать. Разметить художественное произведение в соответствии со стандартами TEI — значит расставить в нём множество тегов, которые помогают обозначить и различить разные структурные элементы текста. Тегов огромное количество, благодаря этому можно перевести текст в размеченный вид, не потеряв никаких его особенностей и деталей! Основные теги, конечно, соответствуют основным частям текста: заголовку, подзаголовку, абзацу, предложению и т. д. Но есть и множество более специфических деталей, которые тоже важно сохранить. Если теги расставлены внимательно и по общей системе, то такой текст с лёгкостью смогут изучать все заинтересованные исследователи. А главное, в размеченном тексте легко найти нужные части, нужные слова, в нём читатели и учёные могут ориентироваться, потому что кто-то уже расставил «указатели». Это выгодно отличает размеченный текст от просто отсканированной книги, например, в которой можно искать только глазами. Чтобы сохранять единство системы разметки, сообщество TEI составило гайд со списком правил и тегов. Не поверите, но гайдлайн занимает на данный момент более двух тысяч страниц! Убедитесь сами: tei-c.org/...pdf

1 минута