Распарсить HTML-код – это процесс извлечения информации из веб-страницы, представленной в виде HTML-разметки. В .NET-платформе для выполнения этой задачи можно использовать различные библиотеки. В данной статье мы рассмотрим, как распарсить HTML в .NET на языке C# с помощью библиотеки HtmlAgilityPack.
HtmlAgilityPack – это библиотека для работы с HTML-кодом, которая предоставляет удобные средства для парсинга, навигации и модификации HTML-разметки. Она позволяет извлекать информацию из HTML-страницы с помощью XPath-запросов или LINQ to XML.
Для начала установим библиотеку HtmlAgilityPack через NuGet. Откройте консоль диспетчера пакетов NuGet и выполните следующую команду: Install-Package HtmlAgilityPack
После успешной установки библиотеки мы можем приступить к кодированию. Для начала создадим новый проект на платформе .NET, например, консольное приложение.
Подключение библиотеки HtmlAgilityPack
Добавьте следующую директиву using в начале файла Program.cs:
Загрузка HTML-страницы
Для начала нам нужно получить HTML-код страницы, который мы хотим распарсить. Создадим метод для загрузки HTML-страницы:
Распарсивание HTML-кода
Теперь мы можем использовать HtmlAgilityPack для распарсивания HTML-кода. Например, давайте рассмотрим простой пример извлечения всех заголовков h1 из HTML-страницы:
В данном примере мы создаем новый объект HtmlDocument и загружаем в него HTML-код. Затем мы используем XPath-запрос "//h1", чтобы найти все элементы h1 в HTML-коде. Если заголовки h1 найдены, мы выводим их содержимое с помощью свойства InnerText.
Запуск приложения
Теперь мы можем вызвать методы GetHtml() и ParseHtml() в методе Main:
В данном примере мы передаем URL-адрес веб-страницы в метод GetHtml(), чтобы получить HTML-код. Затем мы передаем HTML-код в метод ParseHtml(), чтобы распарсить его и извлечь информацию.
Вывод:
Это простой пример использования библиотеки HtmlAgilityPack для распарсивания HTML-кода в .NET на языке C#. HtmlAgilityPack предоставляет множество других функций и возможностей для работы с HTML-разметкой. Вы можете изучить документацию по библиотеке, чтобы узнать больше о ее возможностях и использовании.