Найти тему
Николай Лазарев

EDA для NLP ML-модели

Осваиваю обработку естественного языка в ML. Для начала научился преобразовывать текст в вектор для дальнейшего использования числовых значений в обучении модели.

EDA - разведочный анализ данных (exploratory data analysis).

NLP (Natural Language Processing) - автоматическая обработка тестов.

Кроме традиционной загрузки библиотек, самих данных, а также ознакомления с данными, для работы с текстовыми полями необходимо проделать следующие шаги:

  1. Токенизация - предложения трансформируются в список отдельных слов.
-2
Было, стало
Было, стало

2. Лемматизация - получение нормальной (начальной) формы каждого слова.

-4
Было, стало
Было, стало

3. Убираем стоп слова.

-6

4. Обучение модели Word2Vec. Данная модель выбрана, как один из распространенных вариантов. Есть и другие.

-7

5. Усредняем вектор.

-8

В итоге, получаем поле с численным значением, отображающим смысл текста. С этим полем можно уже работать в классическом ML.

Ссылка на мой код в гитхабе https://github.com/NikLaz25/Different-tasks/blob/main/nlp_vector.ipynb