1654 подписчика

Инвертированный индекс и шардирование: что физически происходит с вашей страницей после краула, и почему «переиндексация» — это не то, что в

ВчераВчера

11 мин

Меня зовут Анатолий Кузнецов, и поисковым продвижением я занимаюсь с 2003 года. За это время я слышал слово «переиндексация» примерно пять тысяч раз — и почти всегда в неправильном смысле. Звонит клиент: «Анатолий, я поменял заголовок, отправил страницу на переиндексацию, робот зашёл — а позиций нет. Что не так?» И вот тут начинается самое интересное, потому что в голове у человека сидит модель, которой в реальности не существует. Модель эта простая и красивая: робот пришёл, прочитал страницу, и она тут же встала в выдачу на новое место. Логично? Логично. Только поисковая система устроена совсем не так. И если вы поймёте, что физически происходит с вашей страницей после того, как по ней прошёлся краулер, вы перестанете нервно жать кнопку «переобход» каждые двадцать минут и начнёте думать категориями, которыми думают инженеры Яндекса. Сегодня я разберу всю цепочку — от скачивания байтов до того момента, когда строчка с вашим сайтом появляется в ответе на запрос. Без академической зауми,

Модель эта простая и красивая: робот пришёл, прочитал страницу, и она тут же встала в выдачу на новое место. Логично? Логично. Только поисковая система устроена совсем не так. И если вы поймёте, что физически происходит с вашей страницей после того, как по ней прошёлся краулер, вы перестанете нервно жать кнопку «переобход» каждые двадцать минут и начнёте думать категориями, которыми думают инженеры Яндекса.

Сегодня я разберу всю цепочку — от скачивания байтов до того момента, когда строчка с вашим сайтом появляется в ответе на запрос. Без академической зауми, но и без упрощений в духе «робот всё посмотрел и решил». Поехали.

Краул — это всего лишь скачивание байтов. И больше ничего

Первое, что нужно вбить себе в голову намертво: краул (он же обход, он же сканирование) — это не «изучение» вашей страницы. Это тупое механическое скачивание HTML-кода. Робот YandexBot устанавливает соединение с вашим сервером, забирает набор байтов и кладёт их в очередь. Всё. Он не оценивает качество, не считает релевантность, не сравнивает вас с конкурентами. На этом этапе ваша гениальная статья и спам-портянка соседа абсолютно равны — это просто два файла в очереди на обработку.

Отсюда, кстати, растут ноги у большинства технических проблем. Если ваш сервер отвечает медленно или периодически отдаёт 5хх-ошибки, робот скачивает меньше страниц за один заход и реже к вам возвращается. Это называется краулинговый бюджет, и он напрямую завязан на то, как быстро и стабильно отвечает ваш хостинг. Я подробно разбирал эту связку в материале про то, почему медленный сайт вылетает из ТОПа быстрее, чем посетитель закрывает вкладку — там цифры и причинно-следственная связь.

Так вот, робот скачал байты. Дальше эти байты уходят в совершенно отдельную подсистему, и тут начинается настоящая работа, которую вы никогда не увидите в Вебмастере.

После краула страница попадает на конвейер. И это не метафора

Представьте автомобильный завод. На входе — кузов (ваш скачанный HTML). На выходе — машина, готовая к продаже (документ, по которому можно искать). Между ними — конвейер из десятка станций, и на каждой со страницей делают что-то своё.

Сначала страницу рендерят, если на ней есть JavaScript — то есть «дорисовывают» так, как её увидел бы браузер. Это отдельная и довольно дорогая операция, поэтому контент, зашитый в чистый HTML, обрабатывается быстрее и надёжнее, чем тот, что подгружается скриптами. Дальше из готового документа вычищается «обвязка» — меню, подвал, рекламные блоки — и выделяется основное содержимое. Потом текст разбирают на отдельные слова. И вот здесь, на этапе разбора, прячется один из самых недооценённых механизмов всего русскоязычного поиска.

Токенизация и лемматизация: почему русский язык — это отдельная головная боль

Когда систему кормят вашим текстом, она не хранит слова в том виде, в каком вы их написали. Текст разбивается на токены — отдельные единицы, — а потом каждое слово приводится к нормальной форме. Это называется лемматизация. «Купил», «купим», «куплю», «купленный» — для системы это одна лемма «купить». «Окнами», «окну», «окон» — одно «окно».

Для английского, где склонений почти нет, это полбеды. А вот русская морфология — это ад с сотнями форм у одного слова, и Яндекс исторически вкладывался в её обработку сильнее любого западного конкурента, потому что иначе по русскому языку нормально искать просто невозможно. Практический вывод для вас: не нужно пихать в текст все падежи и склонения ключа подряд в надежде «покрыть все формы». Система и так сводит их к одной лемме. Когда вы пишете «пластиковые окна купить недорого окнами окон» — вы не помогаете релевантности, вы создаёте переспам, на который прекрасно реагируют текстовые фильтры. О том, как алгоритм отличает живой текст от написанного «под робота», я разбирал в статье про то, как YATI читает ваши тексты как редактор Forbes.

Итак, текст разобран на леммы, у каждого слова зафиксирована позиция в документе. Теперь самое главное — как всё это хранится.

Инвертированный индекс: главная штука, про которую почти никто не знает

Вот мы и добрались до сердца любой поисковой системы. И до ответа на вопрос «что физически происходит с вашей страницей».

Интуитивно мы представляем индекс так: есть список документов, и у каждого документа есть список слов, которые в нём встречаются. Документ → слова. Это прямой индекс. Логично, по-человечески, и — абсолютно непригодно для поиска. Потому что когда пользователь вводит запрос «ремонт квартир спб», система не может перебирать миллиарды документов и в каждом проверять, есть ли там эти слова. Это заняло бы часы.

Поэтому всё переворачивается с ног на голову. Хранится не «документ → слова», а наоборот: «слово → список всех документов, где оно встречается». Отсюда и название — инвертированный, то есть перевёрнутый, обратный индекс. Для леммы «ремонт» лежит огромный список (на профессиональном жаргоне — постинг-лист) со всеми документами, где это слово есть, плюс позиции, частоты, пометки о том, где именно слово стояло — в заголовке, в тексте, в ссылке.

Когда приходит запрос «ремонт квартир спб», система не бежит по документам. Она достаёт три готовых списка — для «ремонт», для «квартира», для «спб» — и пересекает их. На пересечении остаются документы, где есть все три слова. Из миллиардов страниц за миллисекунды остаётся, условно, несколько сотен тысяч кандидатов. И только потом начинается ранжирование.

Вот почему ваша страница после обработки — это не «страница». Это набор записей, рассыпанных по тысячам постинг-листов. Слово «недорого» из вашего текста ушло в один список, «окна» — в другой, «спб» — в третий. Ваш документ физически перестал существовать как единое целое; он размазан по индексу. И когда вы меняете на странице одно предложение, вы фактически просите систему отредактировать записи сразу в десятках разных мест этой гигантской структуры.

Кстати, именно из устройства инвертированного индекса растёт проблема, которую большинство владельцев сайтов недооценивают, — дубли. Когда у вас две почти одинаковые страницы, система видит две пачки практически идентичных записей и вынуждена решать, какую считать основной. Чем это заканчивается, я подробно расписал в материале про то, что дубли страниц — это тихий убийца трафика.

Шардирование: почему ваша страница живёт на тысячах серверов одновременно

Теперь умножьте всё это на масштаб. Индекс рунета — это не файл на одном мощном компьютере. Никакая, даже самая дорогая, машина физически не вместит и не обработает такой объём. Поэтому индекс разрезают на куски и раскладывают по огромному количеству серверов. Этот разрез и называется шардированием, а каждый кусок — шардом.

Грубо говоря, индекс делят на тысячи частей, и каждая часть живёт на своём сервере (а для надёжности — ещё и в нескольких копиях). Когда приходит ваш запрос, он не идёт на один сервер. Он рассылается одновременно на все шарды: «у кого есть кандидаты по этим словам?» Каждый шард у себя локально ищет, отбирает лучшее и возвращает свою порцию результатов. Потом всё это собирается воедино, сортируется и отдаётся вам в виде десяти строчек на первой странице. В индустрии эту схему называют «разослать и собрать» — scatter-gather.

Что это значит лично для вас? Несколько важных вещей. Во-первых, у вас нет «вашего сервера в Яндексе», который можно попросить «обновиться побыстрее» — ваши данные распределены и реплицированы по системе, и обновление в ней по своей природе не мгновенное, а постепенное. Во-вторых, любое изменение должно «доехать» до всех нужных шардов и до всех реплик — а это происходит не в реальном времени, а пакетами, по расписанию слияний. И вот мы вплотную подошли к главному заблуждению.

Ранжирование происходит не при индексации, а в момент запроса

Запомните это как мантру: индекс ничего не ранжирует. Индекс — это склад. Он хранит, кто где лежит. А вот кто окажется на первом месте — решается каждый раз заново, в момент конкретного запроса конкретного пользователя.

Когда система собрала кандидатов из постинг-листов, к ним применяется ранжирующая формула — а это машинное обучение, которое взвешивает тысячи факторов: текстовую релевантность, коммерческие сигналы, поведение пользователей, региональность, авторитетность. Причём для разных запросов и разных пользователей вес факторов будет разным. Подробно логику отбора в коммерции я разбирал в статье о том, как Яндекс на самом деле решает, кому отдать ТОП-3.

Ключевой момент: ранжирование — это отдельная подсистема, работающая в момент запроса и обучающаяся на своём собственном расписании. Она не «прикручена» к моменту, когда робот зашёл на вашу страницу. И именно поэтому формула, которую все ищут — «робот зашёл = позиции обновились», — не работает.

Почему «переиндексация» — миф: краул ≠ индексация ≠ ранжирование

Теперь сложим всё вместе, и вы увидите, почему слово «переиндексация» вводит в заблуждение. На самом деле это три разных, асинхронных, не связанных жёстко между собой процесса:

Первое — переобход (re-crawl). Робот заново скачал свежую версию вашей страницы. Это то единственное, что вы реально запускаете кнопкой в Вебмастере. На этом ваша власть заканчивается.

Второе — обновление индекса (re-index). Свежая версия проходит весь конвейер — рендеринг, токенизацию, лемматизацию — и записи в инвертированном индексе обновляются. Но обновляются они не сразу: новые данные сначала копятся, а потом сливаются с основным индексом пакетно. Старые записи при этом не «стираются» мгновенно — они помечаются как неактуальные и вычищаются позже, при очередном слиянии. Между «робот скачал» и «индекс реально обновился по всем шардам» может пройти от нескольких часов до нескольких недель.

Третье — переоценка ранжирования (re-rank). Даже когда индекс обновился, это ещё не значит, что ваши позиции пересчитаны. Часть факторов (особенно поведенческие и коммерческие) накапливается во времени и переоценивается отдельно. Вы поменяли заголовок — текстовый фактор обновится относительно быстро. А вот как на новый заголовок отреагируют пользователи, система будет собирать неделями, прежде чем сделать вывод.

Вот и весь секрет. Когда вы «отправили на переиндексацию», вы запустили только первый из трёх процессов. Остальные два идут своим чередом, по своим внутренним часам, и кнопки «ускорить» у них нет. Поэтому отсутствие движения на следующий день после правки — это норма, а не катастрофа. А вот если страница неделями болтается в статусе «не в поиске» — это уже сигнал, и причины я разбирал в материале о том, почему Яндекс перестаёт индексировать сайт.

Свежий индекс против основного: где живёт ваша новая статья

И последний кусочек пазла, который окончательно всё объясняет. У поисковика не один индекс, а как минимум два контура. Есть основной индекс — большой, обновляется реже, именно по нему идёт основная масса запросов. И есть «свежий», оперативный контур (в народе его связывают с быстророботом), куда новый и часто меняющийся контент попадает почти сразу — чтобы новости и горячие материалы не ждали недели.

Поэтому бывает так: опубликовали статью — и она через час уже в выдаче. А потом раз — и пропала на несколько дней, чтобы вернуться уже на «настоящем», взвешенном месте. Это не глюк и не фильтр. Это документ переехал из быстрого свежего контура в основной индекс и получил полноценную ранжирующую оценку. Я сам когда-то, лет пятнадцать назад, ловил из-за этого панические атаки, пока не понял механику. Теперь объясняю клиентам заранее — и нервов у всех меньше.

Что со всем этим делать на практике

Если убрать всю инженерную романтику, выводы простые и применимые уже сегодня.

Не жмите «переобход» по десять раз — это запускает только скачивание, а не магию. Дайте конвейеру отработать. Вместо ритуальных плясок с кнопкой займитесь тем, что реально влияет на скорость прохождения по конвейеру: стабильным и быстрым ответом сервера, чистым HTML без лишнего JS, отсутствием дублей, логичной перелинковкой и грамотным управлением краулинговым бюджетом. Это и есть техническая база, на которой потом вырастают позиции.

И вот тут — честно, без воды. Если вы прочитали всё это и поймали себя на мысли «звучит логично, но руки не доходят / не понимаю, с чего начать» — это нормально, для того и существуют люди вроде меня. Я частный SEO-специалист, работаю напрямую, без агентств и менеджеров-прокладок, беру по одному проекту на нишу и за 20+ лет не словил ни одного фильтра Яндекса.

Начать проще всего с диагностики: закажите бесплатный аудит сайта — я покажу, что тормозит индексацию и где вы теряете трафик, без общих фраз и «воды». Если по итогам аудита всплывут технические проблемы (а они всплывают у 8 из 10 сайтов), их закроет доработка и техническая оптимизация сайта. А дальше — системное SEO-продвижение в ТОП Яндекса с еженедельными отчётами и ростом не позиций ради позиций, а заявок и звонков. Средний рост обращений у моих клиентов — в 3–4 раза за первые полгода.

И отдельно — про то, что уже стучится в дверь. Всё больше людей не «гуглят», а спрашивают у нейросетей: Алисы, YandexGPT, ChatGPT, Perplexity. И там действуют свои правила попадания в ответ — это уже не классическое SEO, а GEO, оптимизация под генеративные движки. Я начал заниматься этим одним из первых на рынке, пока конкуренты спорят, «взлетит или нет». Если хотите, чтобы вас не только находили в поиске, но и упоминали нейросети, — посмотрите мои материалы по GEO-продвижению и почему SEO в привычном виде уступает место GEO уже в 2026 году. Кто зайдёт в эту нишу сейчас — снимет сливки; кто будет ждать — будет догонять.

Готовы превратить теорию из этой статьи в трафик и заявки? Напишите мне — обсудим ваш проект. Беру не всех и не за всё, но если берусь — значит, в результате уверен

#SEO #инвертированныйиндекс #индексацияsайта #ЯндексSEO #переиндексация #техническоеSEO #краулинг #шардирование #GEOпродвижение #продвижениесайтов

Маркетинг и продажи

129,1 тыс интересуются