120 подписчиков

6. Библиотеки Python для анализа и парсинга данных

11 февраля 202311 фев 2023

121

3 мин

Парсинг (англ. parsing — разбор) — сбор определённой части информации из участков документов, производящийся парсером — специальной программой или скриптом. Веб-скрейпинг (или скрепинг, или скрапинг← англ. web scraping) — это технология получения веб-данных путем извлечения их со страниц веб-ресурсов. - это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python. Изначально задумывался для веб-скрейпинга (технология получения веб-данных путем извлечения их со страниц веб-ресурсов, инструмент для автоматизированного сбора информации в Интернете), однако также скрапи может использоваться для извлечения информации используя API или же как веб краулер общего применения. В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга. Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструк

Оглавление

Scrapy
Beautiful Soup
4. библиотеки машинного обучения

Парсинг (англ. parsing — разбор) — сбор определённой части информации из участков документов, производящийся парсером — специальной программой или скриптом.

Веб-скрейпинг (или скрепинг, или скрапинг← англ. web scraping) — это технология получения веб-данных путем извлечения их со страниц веб-ресурсов.

Scrapy

- это бесплатный фреймворк для веб-краулинга находящийся в открытом доступе, который написан на языке программирования Python. Изначально задумывался для веб-скрейпинга (технология получения веб-данных путем извлечения их со страниц веб-ресурсов, инструмент для автоматизированного сбора информации в Интернете), однако также скрапи может использоваться для извлечения информации используя API или же как веб краулер общего применения. В настоящее время фреймворк обслуживается компанией Scrapinghub Ltd., которая разрабатывает и предоставляет услуги в сфере веб-скрейпинга.

Архитектура проекта Scrapy построена вокруг «пауков», которые по сути являются автономными краулерами с заданными инструкциями.

Юридические аспекты веб-скрейпинга регулируются законодательством: В России регулирующим документом выступает 152 Федеральный закон «О персональных данных», В Евросоюзе действие скрейперов должно соответствовать требованию общего регламента защиты персональных данных (GDPR), а во Франции с апреля 2020 года действует отдельный регламентирующий документ, изданный национальной комиссией по информатизации и свободе (CNIL) ограничивающий сбор персональных данных из открытых источников.

Beautiful Soup

- для парсинга данных из html страниц, для синтаксического разбора файлов HTML/XML, она может преобразовать даже неправильную разметку в дерево синтаксического разбора.

Важной отличительной чертой библиотеки является её следование концепциям Python, а также способность работать со сторонними парсерами (например, lxml и html5lib). Beautiful Soup 4.0+ работает с Python версий как 2.x, так и 3.x.

Задачи парсера:

Поиска данных
Преобразования информации в другие форматы
Мониторинга изменений на сайтах

В ходе развития технологии процесс парсинга начали разделять на два независимых этапа, краулинг и сам парсинг. Краулинг — это как раз обход защиты от парсеров, например, решение капчей, или использование прокси серверов для обхода бана по ip. Термин скрепинг стал объединять в себе два этих этапа.

4. библиотеки машинного обучения

* Sklearn (scikit-learn) — открытая библиотека машинного обучения для языка Python. Это модуль Python для машинного обучения, построенный поверх SciPy.

Она также отлично взаимодействует с другими научными библиотеками Python, такими как NumPy и SciPy.

Эта библиотека поддерживает алгоритмы обучения как с учителем, так и без учителя.

* TensorFlow — библиотека сквозного машинного обучения Python для выполнения высококачественных численных вычислений. С помощью TensorFlow можно построить глубокие нейронные сети для распознавания образов и рукописного текста и рекуррентные нейронные сети для NLP (обработки естественных языков). Также есть модули для векторизации слов (embedding) и решения дифференциальных уравнений в частных производных (PDE).

* Keras — одна из основных библиотек Python с открытым исходным кодом, написанная для построения нейронных сетей и проектов машинного обучения. Keras может работать совместно с Deeplearning4j, MXNet, Microsoft Cognitive Toolkit (CNTK), Theano или TensorFlow.

В этой библиотеке реализованы практически все автономные модули нейронной сети, включая оптимизаторы, нейронные слои, функции активации слоев, схемы инициализации, функции затрат и модели регуляризации. Это позволяет строить новые модули нейросети, просто добавляя функции или классы.

Keras особенно удобна для начинающих разработчиков, которые хотят проектировать и разрабатывать собственные нейронные сети.

* PyTorch — это полностью готовая к работе библиотека машинного обучения Python с отличными примерами, приложениями и вариантами использования, поддерживаемая сильным сообществом. PyTorch отлично адаптирована к графическому процессору (GPU), что позволяет использовать его, например в приложениях NLP (обработка естественных языков).

Глубокие нейронные сети и тензорные вычисления с ускорением на GPU — две основные фишки PyTorch. Библиотека также включает в себя компилятор машинного обучения под названием Glow, который серьезно повышает производительность фреймворков глубокого обучения.

* YellowBrick - визуальный анализ и диагностические инструменты для облегчения выбора модели машинного обучения.

Питон и гит кратко.

Питон, джава и баш кратко.