Найти тему
Глеб Самудин

Авторская атрибуция Арабской поэзии с использованием машинного обучения

 https://pixabay.com/ru/photos/%D0%BA%D0%BD%D0%B8%D0%B3%D0%B8-%D0%B8%D1%81%D0%BB%D0%B0%D0%BC-%D0%B8%D1%81%D0%BB%D0%B0%D0%BC%D1%81%D0%BA%D0%B0%D1%8F-%D0%B0%D1%80%D0%B0%D0%B1%D1%81%D0%BA%D0%B8%D0%B9-2477164/
https://pixabay.com/ru/photos/%D0%BA%D0%BD%D0%B8%D0%B3%D0%B8-%D0%B8%D1%81%D0%BB%D0%B0%D0%BC-%D0%B8%D1%81%D0%BB%D0%B0%D0%BC%D1%81%D0%BA%D0%B0%D1%8F-%D0%B0%D1%80%D0%B0%D0%B1%D1%81%D0%BA%D0%B8%D0%B9-2477164/

Введение метр, рифма, вес и популяризация являются наиболее важными элементами древней арабской поэзии. Древнеарабскую поэзию можно разделить на две группы: мерную или рифмованную и поэтическую прозу. Измеренная или рифмованная поэзия значительно опережает поэзию по происхождению, как это бывает исторически ранее. Поэзия рифмуется на 16 различных метрах.



Анализ текста арабской поэзии с использованием машинного обучения - задача не из легких, поскольку атрибуты арабской поэзии отличаются от атрибутов других текстов на арабском языке. Арабская поэзия имеет структурные особенности, отличающиеся от обычных текстов, такие как форма, ритм и вес.

https://pixabay.com/ru/photos/%D0%B0%D1%80%D0%B0%D0%B1%D1%81%D0%BA%D0%B8%D0%B9-%D0%BA%D0%BD%D0%B8%D0%B3-%D0%BA%D0%BD%D0%B8%D0%B6%D0%BD%D0%B0%D1%8F-%D0%BF%D0%BE%D0%BB%D0%BA%D0%B0-2463778/
https://pixabay.com/ru/photos/%D0%B0%D1%80%D0%B0%D0%B1%D1%81%D0%BA%D0%B8%D0%B9-%D0%BA%D0%BD%D0%B8%D0%B3-%D0%BA%D0%BD%D0%B8%D0%B6%D0%BD%D0%B0%D1%8F-%D0%BF%D0%BE%D0%BB%D0%BA%D0%B0-2463778/



Концепция авторства в случае арабской поэзии заключается в том, что если текст стихотворения дать в виде обучающих данных от известного поэта, то можно определить автора непризнанного текста в тестовых данных.


Это можно сделать, переписав неизвестный текст известного поэта потенциальному поэту . В этом задании автору присваивается анонимный текст, и автор определяется из группы номинированных авторов с использованием набора характеристик.

Исследования, касающиеся идентификации оригинальных поэтов и оценки эффективности методов классификации в арабской поэзии, являются новыми по сравнению с исследованиями, проводимыми на других языках.

Исследования по идентификации поэтов в арабской поэзии отсутствуют или почти отсутствуют, за исключением наших опубликованных исследований.


Насколько известно, на момент написания данной работы ни в одной из опубликованных работ не рассматривалась такая проблема, как в данной работе. Основной вопрос исследования заключается в том, написал ли поэму потенциальный поэт Икс. Тем не менее, несколько связанных с этим работ представляют собой доступ, что облегчает работу.



Результаты и дискуссионные эксперименты были проведены с целью определения реальных авторов некоторых текстов арабской поэзии. Был представлен набор текстов, написанный 114 арабскими поэтами.

После внедрения трех методик классификации и тестирования характеристик, мы получили результаты, перечисленные в таблицах 2 и 3. Максимальное значение точности составляет 99,12% от точной атрибуции - это означает, что конкретные атрибуты слова в арабской поэзии, используемые поэтами различными способами, могут отличаться стилем поэтов.


Эксперимент

https://pixabay.com/ru/photos/%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8-%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%BE%D0%BB%D1%8C%D0%BA%D0%BE-2414380/
https://pixabay.com/ru/photos/%D0%B1%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B8-%D0%B8%D1%81%D1%81%D0%BB%D0%B5%D0%B4%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5-%D1%82%D0%BE%D0%BB%D1%8C%D0%BA%D0%BE-2414380/


При извлечении значений параметров (с использованием APAAM и прикладных методик-NB, SVM, LDA) они были сгруппировали в семь наборов в соответствии со следующими стилистическими особенностями: характеристики характера, набор лексических характеристик, структурные особенности, синтаксические особенности, набор семантических характеристик, набор поэтических характеристик и набор характеристик конкретных слов.

Исследования показали, что лингвистические особенности являются наиболее важными классификациями после структурирования дополнительных характеристик и специальных материалов.


Для эксперимента были выбраны в качестве корпуса 114 поэтов, которые были использовали во всех экспериментах.



Для каждого образца были оценены использование наиболее поэтичного текста по авторам учебных текстов и проводили анализ 114 анонимных текстов обнаруженному создателю с помощью классификаторов NB, SVM, LDA, которые использовали в рамках всех исследований.

Точность модели определяется периодом точности (общий стиль, как это должно быть известно, текстового содержания по сравнению с 114 текстами).



Эксперименты, проведенные отдельно по каждому элементу арабских поэтических данных с использованием машинного обучения, выявили следующие важные моменты:

  • наилучшие показатели эффективности на уровне 97.95% для конкретного слова;
  • 94.15% для букв ;
  • 93.28% для лексических характеристик, лучше, чем все показатели.


    Благодаря этим особенностям при применении методов классификации - поэзия обеспечила хорошие результаты в среднем 81,58%. Тем не менее, производительность этих функций ниже, чем ожидалось, потому что эти функции ограничены метром, рифмой и -


    Длина предложений и эти характеристики похожи на большинство поэтов, поэтому эти функции не идеально подходят для идентификации реальных авторов, если тексты используются отдельно:


  • Наилучшее среднее значение производительности для уровня характеристик составляет 98,25%, которое мы получаем после использования всех атрибутов вместе;
  • Поэтические характеристики вместе с другими особенностями дают видимое представление о точной идентификации автора, но использование одного только этого метода не дает наилучшего результата;
  • Лучший средний результат производительности 92,84% ;
  • Исходя из вышеизложенного, результаты соответствуют ожиданиям.



    Был получен коэффициент успешности 99,12% и ценная производительность 92,84% для эффективности машинного обучения и 98,246% для функциональности.