Одним из направлений в ИТ, куда можно войти относительно просто – это парсинг сайтов и парсинг данных.
Для начала разберемся в терминологии. Сейчас под парсингом понимают сбор данных с сайтов или интернет - магазинов и последующая его выгрузка и использование каким – либо образом, будь-то анализ цены, сравнение с конкурентами, маркетинговый анализ и т.д. Однако, строго говоря, этот процесс правильно разделить на две составляющие:
1. Скрапинг (англ. Scraping – соскабливание, выскребание)
2. Парсинг (анг. Parsing – разбор, анализ)
Скрапинг данных – это как раз процесс «добычи» или выскребания данных с сайтов. Поверьте, термин «выскребание» я бы заменил на «выцарапывание» — это более живое слово, наиболее точно отражающее процесс. Так как почти все современные сайты совершенно не спешат просто так отдавать данные, причин тому много, от понятного нежелание легко делится данными, до защиты от DDOS атак, которые в значительной степени похожи на парсинг. Я бы даже сказал, что процесс скрапинга более трудоемок, и как раз здесь требуются дополнительные усилия, как-то проксирование, танцы с бубнами, чтобы сайты признали вас за человека и т.д.
Парсинг данных – а это уже «вычесывание» тех данных, которые мы получили при скрапинге. Работа с кодировкой, очистка от спецсимволов, знаков валют, перевод текстовых данных в числовые, выстраивание данных в правильные последовательности.
Тем не менее, если вы будете общаться на эту тему, то термин «ПАРСИНГ» вполне себе понятно опишет сферу вашей деятельности.
Теперь о том, какие шаги нужно сделать, чтобы освоить парсинг:
Если вы совсем новичок – то нужны базовые знания программирования. Если вы новичок – я бы рекомендовал язык PYTHON – как наиболее доступный, а также пару курсов с сайта https://stepik.org – это начальные курсы по языку Python:
1. https://stepik.org/course/58852/promo
2. https://stepik.org/course/68343/promo
После прохождения данных курсов можно пройти курс уже по парсингу:
1. https://stepik.org/course/104774/promo
Это все не реклама, а когда -то мой путь, который я прошел и не жалею, и продолжаю развиваться.
Менять последовательность очень не советую. Если вы не мамкин программист и уже работаете и свободного времени не так много, то лучше не распыляться, а заниматься чем-то одним, иначе КПД и мотивация резко упадет.
НУ а далее самое главное – ПРОБОВАТЬ, ПРОБОВАТЬ, ПРОБОВАТЬ, сталкиваться с вопросами, находить решения. По ходу вы столкнетесь с другими вопросами, как то запись данных в базы данных, файлы и т.д. Благо - все это не рокет сайнс, и не требует колоссальных навыков, осваивается буквально за часы. Самое главное заниматься лучше хотя бы по часу в день без больших перерывов, тогда эффективность будет выше.
В следующих статьях разберем кратко отличия в технологиях парсинга сайтов различными библиотеками на языке Python.
Всем добра, Константин.