Осваиваю обработку естественного языка в ML. Для начала научился преобразовывать текст в вектор для дальнейшего использования числовых значений в обучении модели.
EDA - разведочный анализ данных (exploratory data analysis).
NLP (Natural Language Processing) - автоматическая обработка тестов.
Кроме традиционной загрузки библиотек, самих данных, а также ознакомления с данными, для работы с текстовыми полями необходимо проделать следующие шаги:
- Токенизация - предложения трансформируются в список отдельных слов.
2. Лемматизация - получение нормальной (начальной) формы каждого слова.
3. Убираем стоп слова.
4. Обучение модели Word2Vec. Данная модель выбрана, как один из распространенных вариантов. Есть и другие.
5. Усредняем вектор.
В итоге, получаем поле с численным значением, отображающим смысл текста. С этим полем можно уже работать в классическом ML.
Ссылка на мой код в гитхабе https://github.com/NikLaz25/Different-tasks/blob/main/nlp_vector.ipynb