Введение метр, рифма, вес и популяризация являются наиболее важными элементами древней арабской поэзии. Древнеарабскую поэзию можно разделить на две группы: мерную или рифмованную и поэтическую прозу. Измеренная или рифмованная поэзия значительно опережает поэзию по происхождению, как это бывает исторически ранее. Поэзия рифмуется на 16 различных метрах.
Анализ текста арабской поэзии с использованием машинного обучения - задача не из легких, поскольку атрибуты арабской поэзии отличаются от атрибутов других текстов на арабском языке. Арабская поэзия имеет структурные особенности, отличающиеся от обычных текстов, такие как форма, ритм и вес.
Концепция авторства в случае арабской поэзии заключается в том, что если текст стихотворения дать в виде обучающих данных от известного поэта, то можно определить автора непризнанного текста в тестовых данных.
Это можно сделать, переписав неизвестный текст известного поэта потенциальному поэту . В этом задании автору присваивается анонимный текст, и автор определяется из группы номинированных авторов с использованием набора характеристик.
Исследования, касающиеся идентификации оригинальных поэтов и оценки эффективности методов классификации в арабской поэзии, являются новыми по сравнению с исследованиями, проводимыми на других языках.
Исследования по идентификации поэтов в арабской поэзии отсутствуют или почти отсутствуют, за исключением наших опубликованных исследований.
Насколько известно, на момент написания данной работы ни в одной из опубликованных работ не рассматривалась такая проблема, как в данной работе. Основной вопрос исследования заключается в том, написал ли поэму потенциальный поэт Икс. Тем не менее, несколько связанных с этим работ представляют собой доступ, что облегчает работу.
Результаты и дискуссионные эксперименты были проведены с целью определения реальных авторов некоторых текстов арабской поэзии. Был представлен набор текстов, написанный 114 арабскими поэтами.
После внедрения трех методик классификации и тестирования характеристик, мы получили результаты, перечисленные в таблицах 2 и 3. Максимальное значение точности составляет 99,12% от точной атрибуции - это означает, что конкретные атрибуты слова в арабской поэзии, используемые поэтами различными способами, могут отличаться стилем поэтов.
Эксперимент
При извлечении значений параметров (с использованием APAAM и прикладных методик-NB, SVM, LDA) они были сгруппировали в семь наборов в соответствии со следующими стилистическими особенностями: характеристики характера, набор лексических характеристик, структурные особенности, синтаксические особенности, набор семантических характеристик, набор поэтических характеристик и набор характеристик конкретных слов.
Исследования показали, что лингвистические особенности являются наиболее важными классификациями после структурирования дополнительных характеристик и специальных материалов.
Для эксперимента были выбраны в качестве корпуса 114 поэтов, которые были использовали во всех экспериментах.
Для каждого образца были оценены использование наиболее поэтичного текста по авторам учебных текстов и проводили анализ 114 анонимных текстов обнаруженному создателю с помощью классификаторов NB, SVM, LDA, которые использовали в рамках всех исследований.
Точность модели определяется периодом точности (общий стиль, как это должно быть известно, текстового содержания по сравнению с 114 текстами).
Эксперименты, проведенные отдельно по каждому элементу арабских поэтических данных с использованием машинного обучения, выявили следующие важные моменты:
- наилучшие показатели эффективности на уровне 97.95% для конкретного слова;
- 94.15% для букв ;
- 93.28% для лексических характеристик, лучше, чем все показатели.
Благодаря этим особенностям при применении методов классификации - поэзия обеспечила хорошие результаты в среднем 81,58%. Тем не менее, производительность этих функций ниже, чем ожидалось, потому что эти функции ограничены метром, рифмой и -
Длина предложений и эти характеристики похожи на большинство поэтов, поэтому эти функции не идеально подходят для идентификации реальных авторов, если тексты используются отдельно:
- Наилучшее среднее значение производительности для уровня характеристик составляет 98,25%, которое мы получаем после использования всех атрибутов вместе;
- Поэтические характеристики вместе с другими особенностями дают видимое представление о точной идентификации автора, но использование одного только этого метода не дает наилучшего результата;
- Лучший средний результат производительности 92,84% ;
- Исходя из вышеизложенного, результаты соответствуют ожиданиям.
Был получен коэффициент успешности 99,12% и ценная производительность 92,84% для эффективности машинного обучения и 98,246% для функциональности.