Найти в Дзене
Не Серхио

Халтурный data анализ пьесы Горького "Дачники" или вредные советы

В предыдущих статьях я писал про мое научное исследование и обрисовал анализ пьесы "Дачники". В этой статье я хочу рассказать, что будет, если поддаться желанию быстро получить результат и забыть о таких радостях научной жизни как знакомство с работами коллег, верификации выбранного метода/алгоритма. Данные Ключевой момент любого дата анализа это данные. Они должны быть "чистыми". Что это значит? Не содержать дубликатов, не содержать лишней информации (например в пьесе "Дачники", помимо самого текста пьесы, еще приводятся описания сцен, героев). Попробуем посмотреть как отличаются в своих высказываниях герои - по эмоциям, по характеру изложения мысли. Берем словарь, в котором собраны слова/фразы с обозначением соответствующей эмоции и ее типа (чувство, мнение, факт): банальный, Adj, банальный, negative, opinion Пример записи для слова "банальный": нам не потребуется указание на часть речи (Adj - указание на часть речи прилагательное, также могут встретиться Verb- глагол, Noun - сущ
Оглавление

Суслов. Источник фото: telespektakli.ru
Суслов. Источник фото: telespektakli.ru

В предыдущих статьях я писал про мое научное исследование и обрисовал анализ пьесы "Дачники". В этой статье я хочу рассказать, что будет, если поддаться желанию быстро получить результат и забыть о таких радостях научной жизни как знакомство с работами коллег, верификации выбранного метода/алгоритма.

Данные

Ключевой момент любого дата анализа это данные. Они должны быть "чистыми". Что это значит? Не содержать дубликатов, не содержать лишней информации (например в пьесе "Дачники", помимо самого текста пьесы, еще приводятся описания сцен, героев).

Попробуем посмотреть как отличаются в своих высказываниях герои - по эмоциям, по характеру изложения мысли.

Берем словарь, в котором собраны слова/фразы с обозначением соответствующей эмоции и ее типа (чувство, мнение, факт):

банальный, Adj, банальный, negative, opinion

Пример записи для слова "банальный": нам не потребуется указание на часть речи (Adj - указание на часть речи прилагательное, также могут встретиться Verb- глагол, Noun - существительное и т.д.). Мы берем только начальную форму слова (банальный), обозначение эмоции (negative), обозначение типа эмоции (opinion).

Алгоритмишка

Вы спросите, а как мы в обычном тексте найдем инфинитивы. Ведь слова в какой угодно форме могут встречаться! Глупость какая-то, махнете рукой и закроете статью. Специально для приведения слов в тексте к начальной форме мы воспользуемся морфологическим парсером, который умеет приводить слова к инфинитиву. А насколько он точен? Есть ли у него ляпы спросите вы. Есть, и даже очень неприятный конкретно для этого текста: имя героини Варвара он приводит к форме варвар и находит в словаре негативное соответствие "варвар".

Что делаем дальше. Разделяем текст таким образом, чтобы имя персонажа выделить в отдельную колонку и получаем подобную структуру

Имя персонажа -- Реплика

Определяем все начальные формы для реплики персонажа и также выделяем в отдельный столбец. Наконец, мы готовы к тому, чтобы определить эмоциональность реплик персонажей! Каждую найденную эмоцию из словаря (не забываем поставить фильтр, чтобы "варвар" не попадал в список найденных эмоций) мы добавляем также в отдельный столбец и получаем следующую структуру:

Имя персонажа--Реплика--Начальные формы реплики--Список найденных словарных эмоций

Дальше нужно подсчитать количество определенных эмоций для каждого персонажа и мы получаем такой ответ

Басов, negative, fact,2
   Басов, negative, feeling,2
   Басов, negative, opinion,16
   Басов, neutral, fact,6
   Басов, neutral, operator,2
   Басов, neutral, opinion,5
   Басов, positive, fact,2
   Басов, positive, opinion,6

А для антагониста Власа получаем

Влас, negative, fact,4
   Влас, negative, feeling,2
   Влас, negative, opinion,10
   Влас, neutral, fact,6
   Влас, neutral, opinion,1
   Влас, positive, fact,1
   Влас, positive, feeling,4
   Влас, positive, opinion,5

Избегающий конфликтов более мягкий Басов должен был иметь меньшее количество негативного мнения чем неистовый Влас. Однако следует вспомнить, что Басов неустанно комментировал, обсуждал происходящее с Шалимовым, Сусловым. Осуждал Власа.

Как могло получиться, что у Власа меньше негативного мнения чем у Басова? Вспомним, что долгое время он "кривлялся", отшучивался, не решаясь показать себя. Значит вероятнее всего он изъяснялся иронично, то есть со скрытым негативом, что в словаре найдёт отражение либо как позитивная эмоция, либо как её отсутствие.

Послесловие

Без учёта контекста слов мы ограничены в применении словаря эмоций, одни и те же слова в репликах разных героев будут иметь разную эмоциональную окраску

Что же в таком случае можно сделать с такими результатами? Посмотреть динамику эмоций по действиям. Определить точки максимума, сравнить с выделенными вручную развязками сюжетных линий (стихи Власа, ответ Суслова, стрельба Рюмина).

В следующей статье, я займусь превращением халтурного анализа в добротный.

До новых встреч, на моем канале!