Найти тему
Машинное обучение

Newspaper3k мощный инструмент, парсинга статей для Python.

Newspaper3k - мощный инструмент, который позволяет парсить статьи и связанные с ними метаданные всего за пару строк кода. Заголовки, авторы, главное изображение, текст и даже ключевые слова. Достаточно передать ссылку.

Установка:

⚙️ pip install newspaper3k

Newspaper3k может легко извлекать и определять языки. Если язык не указан, Newspaper попытается автоматически определить язык.

Функции

Многопоточная структура загрузки статей

Идентификация URL-адреса новостей

Извлечение текста из html

Извлечение верхней картинки из html

Извлечение всех изображений из html

Извлечение ключевых слов из текста

Извлечение резюме из текста

Извлечение автора из текста

Извлечение популярных терминов Google

Работает на 10+ языках

Поддерживаемые языки:

Python/ django
Machinelearning

Наука
7 млн интересуются