Добавить в корзинуПозвонить
Найти в Дзене
Flarus Translations

Автоматический определитель языка текста

Любой автоматический определитель языка имеет в своей основе какой-либо алгоритм работы. Алгоритм разработанного нами определителя языка Guesser.ru построен на последовательном сравнении из базы данных букв, сочетаний и слов, характерных для иностранного языка с соответствующими фрагментами загруженного текста. Подразумевается, что язык, на котором этот текст написан, требуется определить.

Любой автоматический определитель языка имеет в своей основе какой-либо алгоритм работы. Алгоритм разработанного нами определителя языка Guesser.ru построен на последовательном сравнении из базы данных букв, сочетаний и слов, характерных для иностранного языка с соответствующими фрагментами загруженного текста. Подразумевается, что язык, на котором этот текст написан, требуется определить. Самым сложным и неоднозначным этапом стало не программирование алгоритма, а именно подбор буквенных сочетаний, которые мы назвали "маркерами" языка. Работу по наполнения таблицы маркеров выполнили профессиональные редакторы бюро переводов. Работа над списком маркеров ведется и по сей день, ведь характеристики языка достаточно условны и, к тому же, постепенно изменяются во времени.

В разработке нового алгоритма мы отошли от старого метода определения языка по списку заранее загруженных в наш глоссарий слов. Этот алгоритм хорошо определяет язык небольших текстов, предложений и даже отдельных слов, однако при определении языка объемных текстов, в процессе вычисления накапливается ошибка и результат существенно искажается случайным образом. Это возникает из-за одинакового написания коротких или популярных, а соответственно, наиболее частотных слов в разных языках и использования в них одинаковых букв.

Проверить работу пределителя языка