Найти тему
Просто гениально

Распознавание логических единиц в лог файлах.

С развитием новых технологий все больше и больше информации хранится в лог файлах. Анализ таких журналов может быть очень полезным для лиц, принимающих решения. Вероятно, одним из наиболее известных примеров является анализ логов Web, целью которого является извлечение информации или знаний из файлов логов доступа. На самом деле эти журналы хранят информацию о подключенных пользователях на вебсайте и имеют хорошо сформированную структуру.

https://pixabay.com/ru/photos/%D0%B2%D0%B7%D1%80%D0%BE%D1%81%D0%BB%D1%8B%D0%B9-%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81-%D0%BF%D1%80%D0%B5%D0%B4%D0%BF%D1%80%D0%B8%D0%BD%D0%B8%D0%BC%D0%B0%D1%82%D0%B5%D0%BB%D1%8C-3797846/
https://pixabay.com/ru/photos/%D0%B2%D0%B7%D1%80%D0%BE%D1%81%D0%BB%D1%8B%D0%B9-%D0%B1%D0%B8%D0%B7%D0%BD%D0%B5%D1%81-%D0%BF%D1%80%D0%B5%D0%B4%D0%BF%D1%80%D0%B8%D0%BD%D0%B8%D0%BC%D0%B0%D1%82%D0%B5%D0%BB%D1%8C-3797846/

Сегодня существуют очень удобные инструменты для знакомства с топ пользователями, наиболее загруженными страницами и даже с поведением пользователей на сайте. Все эти подходы имеют преимущества на хорошо сформировавшейся структуре, но, к сожалению, в промышленной сфере многие генерируемые бревна очень неоднородны.

Например, в журналах компаний электроэнергетики должна храниться такая информация, как дата, время, список оборудования, длительность перебоев в работе и погодные условия. Так как они обычно питаются от систем, такие журналы могут содержать очень сложные данные, например, таблицы, тексты, числовые и символические данные и т.д.

Сегодня, особенно в промышленных доменах, поиск информации в лог файлах имеет решающее значение, так как количество генерируемых логов резко возрастает. Например, для экспертов важно определить, какие сообщения соответствуют реальным проблемам, чтобы ответить, например, на следующие вопросы: в чем могут заключаться основные причины неудачи, имела ли эта проблема место раньше, каковы основные последствия?

К сожалению, анализ этих журналов для получения актуальной информации, то есть информации, которая может дать ответы на вопросы домена, является сложной, утомительной, трудоемкой, требующей много времени и подверженной ошибкам задачей. Таким образом, экспертам нужны решения для автоматического и точного извлечения информации из этих журналов.

Системы ответов на вопросы (QAS), являющиеся одним из видов системы поиска информации (IR), которая пытается найти точные ответы на вопросы пользователя, выраженные естественным языком, оказались весьма актуальными. Точнее говоря, поиск отрывков (PR) является основным компонентом QAS, целью которого является поиск соответствующих отрывков в документах, содержащих ответы на вопросы.

https://pixabay.com/ru/illustrations/%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F-%D0%BE%D0%BF%D1%82%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F-3013555/
https://pixabay.com/ru/illustrations/%D0%BF%D0%BE%D0%B8%D1%81%D0%BA%D0%BE%D0%B2%D0%B0%D1%8F-%D0%BE%D0%BF%D1%82%D0%B8%D0%BC%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D1%8F-3013555/

Обычно в этом контексте отрывок это последовательность слов фиксированной длины, которая может начинаться и заканчиваться где угодно в документе. Несмотря на преимущества доступа к информации на уровне прохода, нет единого мнения о том, как определить эти проходы, чтобы получить оптимальную производительность. На самом деле, PR системы в основном работают по тому, как они рассматривают границы прохода, и как они оценивают его актуальность.

В большинстве методов поиска прохода можно выделить две основные фазы:

  • Сегментация прохода.
  • Рейтинг прохода.

Сегментация отрывков это задача определения сегментов текста в документах, которые рассматриваются как отрывки кандидатов.

Здесь рассматриваются следующие основные вопросы: как определить границы прохода и как распознать их в корпусе? С другой стороны, ранжирование отрывков оценивает уместность отрывков в соответствии с заданным запросом.

Здесь можно сосредоточимся на вопросе сегментации проходов для конкретного вида сложных данных: лог файлов, генерируемых инструментами электронной автоматизации проектирования. Эти журналы, поступающие из индустриального мира, представляют собой основной источник информации о конструкции, изделиях и даже причинах возникновения проблем.

Они используются для ответа на специализированные вопросы в области микроэлектроники, где в этой области, для обеспечения качества проектирования, существуют некоторые правила проверки качества, которые необходимо проверить. Эти правила обычно выражаются в форме вопросов естественного языка.

https://pixabay.com/ru/photos/%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80-%D0%BF%D0%BA-%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80-1543016/
https://pixabay.com/ru/photos/%D0%B4%D0%B0%D0%BD%D0%BD%D1%8B%D0%B5-%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80-%D0%BF%D0%BA-%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80-1543016/

Проверка этих правил осуществляется главным образом экспертом путем анализа сгенерированных лог файлов. В случае больших конструкций, где инструменты могут генерировать мегабайты или гигабайты лог файлов каждый день, проблема заключается в том, чтобы просмотреть все эти данные и найти важную информацию, необходимую для анализа качества правил.