882 подписчика
#python #nlp #transformers #torch #DeepPavlov Модели трансформеров на данный момент являются state-of-the-art решениями в мире обработки естественного языка. Новые, более крупные и качественные модели появляются почти каждый месяц, устанавливая новые критерии производительности по широкому кругу задач. В данной статье мы будем использовать модель трансформера для бинарной классификации текста. Для работы с текстом существует большое количество решений. Самая простая и популярная связка – TF-IDF + линейная модель...
2 года назад
882 подписчика
#python #nlp #scikit-learn #nltk #анализ данных В предыдущей статье я рассказал, как подготовить датасет, содержащий тексты блога habr.com с информацией об их принадлежности к определенной категории. Теперь на базе этого датасета я расскажу о подходах, позволяющих создать классификатор, автоматически относящий текст к той или иной категории. Сегодня нам предстоит описать решение задачи по созданию классификатора текстовых документов. Шаг за шагом мы будем пытаться улучшить нашу модель. Давайте посмотрим, что же из этого получится...
2 года назад
13,7K подписчиков
Источник: Nuances of Programming Сначала мы посмотрим, как подготовить текстовые данные для подачи их в модель машинного обучения. Затем покажем, как использовать Scikit-learn для реализации модели классификатора, а в конце поговорим об эффективности модели. Обзор данных Датасет, который мы будем использовать, можно найти по следующей ссылке. Это двоичный набор данных для классификации настроений, разделенный на две папки: положительные и отрицательные отзывы (по 1000 штук в каждой папке). Поскольку...
2 года назад
670 подписчиков
Python является популярным языком для написания чат ботов, голосовых помощников, поисковых систем и др программ. Natural language processing (NLP) обработка естественного языка. Эта область знаний находящаяся на стыке науки о данных и сфере искусственного интеллект. Главная задача NLP обучить компьютеры понимать человеческие языки и извлекать смысл из текста. Python содержит обширный набор библиотека для анализа естественного языка. В данной статье мы рассмотрим самые популярные из них. NLP позволяет применять алгоритмы машинного обучения для анализа текста и речи...
1 год назад