2899 читали · 6 лет назад
Парсинг страниц на Python. Parser на Python
Статья подготовлена для студентов курса «Разработчик Python» в образовательном проекте OTUS. Рано или поздно любой Python-программист сталкивается с задачей скопировать какой-нибудь материал с сайта. Так как страниц на нём достаточно много, терять время на ручное копирование — не самый лучший выход. К тому же, языки программирования затем и нужны, чтобы избавлять нас от рутинной работы, автоматизируя решение различных задач. Если же говорить о работе с HTML, то в Python есть отличные библиотеки для этого...
Python и Юникод
Как и все современные языки программирования и средства разработки, язык Python использует кодировку символов Unicode (Юникод). С этим могут быть связаны некоторые неприятности (о которых я буду рассказывать, но не сегодня). Однако в итоге это даёт преимущество - вам больше не надо думать, можно ли прочитать ваши исходные коды на другом компьютере или нет. Вы точно знаете, что ваши исходники используют Юникод, и на этом точка. Однако с тех времён, когда многие редакторы исходного кода не поддерживали...