1265 подписчиков
Если интересно - базы компаний делаем из открытых источников. Например, парсим SimilarWeb и собираем посещаемость (оценку) сайта. Вот тут пример. Скорость парсинга SimilarWeb ~ 5000 доменов в сутки. Это мало, но больше, пока, не получается.
Почему мало? В России 6 млн. доменов, 2 млн. сайтов :) Нам надо 400 дней, чтобы обойти 2 млн. сайтов ... В мире ~100 млн. работающих сайтов, и с такой скоростью у нас уйдет чуть больше чем дохуа времени... Сидим, думаем, что делать.
p.s. и еще вопрос правомерности сбора открытых данных не до конца понятен. Изучаю практику и суды. Попозже отпишусь.
p.p.s кстати я видел занятный бизнес - ребята как мы парсят SimilarWeb и копят данные (мы не копим). В бесплатном варианте SimilarWeb предоставляет информацию только на горизонте три месяца, а парни накапливали у себя данные и показывали график посещаемости за год и больше. Заработок - подписка. И ведь неплохой бизнес :)
Около минуты
25 июня 2024