115 читали · 3 года назад
Извлечение данных из HTML и XML документов с помощью Beautiful Soup
Beautiful Soup - это Python библиотека, которая используется для парсинга HTML и XML документов. С помощью Beautiful Soup можно извлекать данные из веб-страниц, такие как заголовки, текст, ссылки, изображения и многое другое. Для начала работы с Beautiful Soup, необходимо установить эту библиотеку в своем проекте. Для этого можно использовать менеджер пакетов pip: После установки Beautiful Soup можно начать использовать эту библиотеку для извлечения данных из HTML и XML документов. Например, следующий...
193 читали · 6 лет назад
Python парсинг xml в csv
Для работы с xml нам понадобится модуль xml.etree.ElementTree, а для работы с csv - модуль csv. Исходный код: #Импорт необходимых модулей import xml.etree.ElementTree as et import csv #Открываем файл data.csv на чтение. Если его нет, то он интерпретатор его создаст автоматически result_data = open('data.csv', 'w') #Записываем в tree данные из xml tree = et.parse('products.xml') #Считываем содержимое корневого элемента root = tree.getroot() #Создаем список заголовков для записи первой строки в файл data.csv result_head = [] #Добавляем заголовки в список result_head.append('category') result_head...