Newspaper3k - мощный инструмент, который позволяет парсить статьи и связанные с ними метаданные всего за пару строк кода. Заголовки, авторы, главное изображение, текст и даже ключевые слова. Достаточно передать ссылку.
Установка:
⚙️ pip install newspaper3k
Newspaper3k может легко извлекать и определять языки. Если язык не указан, Newspaper попытается автоматически определить язык.
Функции
Многопоточная структура загрузки статей
Идентификация URL-адреса новостей
Извлечение текста из html
Извлечение верхней картинки из html
Извлечение всех изображений из html
Извлечение ключевых слов из текста
Извлечение резюме из текста
Извлечение автора из текста
Извлечение популярных терминов Google
Работает на 10+ языках
Поддерживаемые языки: