Добавить в корзинуПозвонить
Найти в Дзене

Почему поисковики всё равно индексирует страницы, заблокированные в robots.txt

Буду рад видеть Вас в моем телеграмм канале -https://t.me/matveev_seo Цитаты из инструкций:
Яндекс Ограниченные в robots.txt страницы могут участвовать в поиске Яндекса. Чтобы удалить страницы из поиска, укажите директиву noindex. Google Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google. Robots.txt работает не так, как многие думают. Это не жесткий запрет на индексацию, а скорее вежливая просьба к поисковым роботам не заходить на определенные страницы. Google или Яндекс могут обнаружить URL вашей страницы разными способами: Если хотите, чтобы страница не появлялась в поиске, нужно использовать директиву noindex. Есть два основных способа ее применить: 1) Для HTML-страниц добавьте в раздел <head>: <meta name="robots" content="noindex">
2) Для файлов, которые не являются HTML (PDF, изображения, видео), используйте HTTP-заголовок: X-Robots-Tag: noindex Важный момент: чтобы директива noindex сработала, поисковый бот должен иметь во

Буду рад видеть Вас в моем телеграмм канале -https://t.me/matveev_seo

Цитаты из инструкций:
Яндекс

Ограниченные в robots.txt страницы могут участвовать в поиске Яндекса. Чтобы удалить страницы из поиска, укажите директиву noindex.

Google

Файл robots.txt не предназначен для того, чтобы запрещать показ ваших материалов в результатах поиска Google.

Robots.txt работает не так, как многие думают. Это не жесткий запрет на индексацию, а скорее вежливая просьба к поисковым роботам не заходить на определенные страницы.

Google или Яндекс могут обнаружить URL вашей страницы разными способами:

  • Через ссылки с других сайтов
  • Через ссылки с незаблокированных страниц вашего сайта
  • Из социальных сетей
  • Из истории индексации (если страница раньше была открыта)

Если хотите, чтобы страница не появлялась в поиске, нужно использовать директиву noindex. Есть два основных способа ее применить:

1) Для HTML-страниц добавьте в раздел <head>: <meta name="robots" content="noindex">
2)
Для файлов, которые не являются HTML (PDF, изображения, видео), используйте HTTP-заголовок: X-Robots-Tag: noindex

Важный момент: чтобы директива noindex сработала, поисковый бот должен иметь возможность посетить страницу. Поэтому, если вы одновременно закрыли страницу в robots.txt и добавили на нее noindex, бот не сможет увидеть директиву noindex, потому что не посетит страницу.

Итог
Robots.txt и noindex - это разные инструменты с разными задачами:

  1. Robots.txt говорит: "Не заходи сюда"
  2. Noindex говорит: "Можешь зайти, но не показывай в результатах поиска"

Справки:
1) Яндекс -
https://yandex.ru/support/webmaster/
2) Гугл -
https://developers.google.com/search/docs/crawling-indexing/robots/intro?visit_id=638826376206100617-3675060585&rd=1&hl=ru