Урок Python 12: Списки и операции над ними
Анализ текста и обработка естественного языка с помощью библиотеки NLTK Python
Введение Анализ текста и обработка естественного языка (Natural Language Processing, NLP) являются активно развивающимися областями компьютерной науки. Они фокусируются на разработке методов и алгоритмов, которые позволяют компьютерам понимать, интерпретировать и генерировать естественный язык, используя его в различных приложениях, таких как машинный перевод, анализ тональности текста, категоризация текста и многое другое. Одной из наиболее популярных библиотек для работы с NLP является Natural Language Toolkit (NLTK)...
Лемматизируй это быстрее (PyMorphy2, PyMystem3 и немного магии)
Я работаю программистом, и в том числе занимаюсь машинным обучением применительно к анализу текстов. При обработке естественного языка требуется предварительная подготовка документов, и одним из способов является лемматизация – приведение всех слов текста к их нормальным формам с учетом контекста.
Недавно мы столкнулись с проблемой больших временных затрат на этот процесс. В конкретной задаче было более 100000 документов, средняя длина которых около 1000 символов, и требовалось реализовать обработку на обычном локальном компьютере, а не на нашем сервере для вычислений...