32 подписчика
Расскажем ещё немного про нашу внутреннюю «кухню». В digital-проектах простой результат часто достигается неочевидными программистскими решениями. Например, при проектировании поиска мы столкнулись с проблемой — переводом текста из старой орфографии в новую, так как мы опираемся на 90-томное собрание сочинений Толстого, а в нём многие тексты напечатаны в дореволюционной орфографии. Мы долго думали, как сделать так, чтобы при поиске по тексту слова, написанные в старой орфографии, переводились в новую и выдавались по запросу. Иначе по запросу «стол» не выдавалось бы «на столѣ», а по запросу «делающего» — «дѣлающаго». При этом было важно дать пользователю возможность читать и в старой орфографии, как в 90-томнике. Чтобы решить эту задачу, мы написали на Python функцию для разметки текста с дореволюционной орфографией. Скрипт «забирает» фрагмент текста и возвращает его размеченным в обеих орфографиях с помощью разных тегов (<choice>, <reg>, <orig>).
Около минуты
13 декабря 2022