1372 подписчика
В таком виде у нас в базе хранятся сигнатуры технологий на сайтах. Всего несколько тысяч уже и потихоньку добавляем. Например - какие чаты стоят на сайте, какая сквозная аналитика, какая операционная система, CMS и т.п.
Сам подход очень незамысловатый - мы храним в базе html страницу и дальше ищем вхождение определенных сигнатур (текстовых). Точность не 100%, но заказчика (крупного) пока устраивает... В день мы добавляем 2-3 новых технологии, но чем дальше, тем сложнее их выявлять :)
Зачем это клиенту? Оценивать зрелость бизнеса по тому, насколько сайт насыщен теми или иными технологиями, как он развивается и т.п. Дальше компания предлагает свои услуги. В мире есть несколько сервисов, которые предоставляют подобные данные (на уровне лучше нашего, надо признать), но мы еще собираем массу другой информации, что в совокупности дает неплохую "картинку" по организации...
p.s. это я делюсь внутрянкой, за это платят - есть ценность. Кому интересно проверить себя - погуглите, как обнаружить HSTS :) Пишите в комментариях, у меня только одно решение, но думаю их больше...
Около минуты
21 марта 2024