2 года назад
Поисковый робот: что это такое, как работает краулер и какие функции выполняет
Функционал алгоритмов поиска в интернете ориентирован на то, чтобы предоставлять пользователям искомые данные и выдавать качественные сайты, информация на страницах которых является релевантной поступившему запросу. У каждого поисковика, будь то Яндекс, Google или любая другая платформа, в распоряжении имеется внушительный набор вспомогательных программ, задачей которых выступает нахождение актуальных ссылок, текстовых и графических элементов. Они могут получать определенные задания и управляться вручную, оказывают влияние на seo-продвижение, а также бывают вежливыми или вредными...
«Отравленный колодец» для LLM: новая guerrilla-тактика авторов
В марте 2025 дизайнер и писатель Хейдон Пикеринг опубликовал эссе Poisoning Well, где предложил оригинальный способ борьбы с «колониальным» стилем сбора данных большими языковыми моделями (LLM). Идея проста: раз краулеры всё равно игнорируют robots.txt и мета-теги, почему бы не накормить их не тем, что мы даём людям, а тщательно приготовленным бессмысленным суррогатом? 👨‍💻 Генерация «мусорных двойников» На сайте, построенном на 11ty, автор создал шаблон nonsense.njk, который дублирует каждую статью в /nonsense/*...