Урок 4 курса Чекушина Продвижение интернет машазинов, который сейчас проходим.


Текстовая оптимизация

Не все зоны документа индексируются:

description
keywords
title ссылок
динамические элементы (JavaScript)

Индексируемые элементы документа подвергаются токенизации - разделение на слова. Она делит текст на слова, определяет их часть речи и избавляется от знаков препинания (кроме дефисов в словах).
Лемматизация - приведение слова к его исходной форме. Текстовые факторы работают на лексемах, то есть, на изначальных словоформах.
Также в большинстве факторов убираются служебные части речи
Поиск также распознает синонимы, если быть точнее, синсеты - объединение слов, относящихся к одному явлению. “Синонимы” в синсетах могут быть не взаимными (слово а является синонимом слову б, но слово б не является синонимом слову а)

Чтобы найти такие синонимы в Яндексе забиваем запрос -> смотрим подсветки-синонимы в сниппетах -> к адресу запроса добавляем GET-параметр &nosyn=1 -> то, что перестало подсвечиваться является синонимом

Основные текстовые факторы основаны на “мешке слов”: берем все слова документа и убираем всю последовательность и их связанность между собой. Факторы от “мешка слов” - TF (отношение количества вхождений слова к общему количеству слов в документе) и BM25 (нормированное количество слов)

Поиск использует два подхода к оценке документа (при наличии в запросе более 1 слова):
подход равнозначности - по мешку слов оба слова из запроса считаются с одинаковым весом (BM25 по одному слову, BM25 по другому слову, ...)
способы взвешивания

IDF (Inverted Document Frequency - логарифм отношения количества всех документов к количеству документов, содержащих определенное слово); чем реже слово встречается в сети, тем оно значимее.
ICF - примерно как IDF, только сравнивает с корпусом языка
машинно подобранные веса - поиск на основе машинного обучения индивидуально подбирает веса к словам

Как поиск учитывает порядок слов? Здесь в качестве токена выступает биграмма и расстояние Левенштейна (рассчитывается по количеству итераций в порядке слов для приведения биграмму в изначальное состояние *купить телевизор москва = купить телевизор в Москве) для расчета веса при изменении порядка слов в биграмме (“мобильные телефоны” = 1, “телефоны мобильные” = 0,5, “мобильные * телефоны”, где * - любое слово кроме служебного = 0,5)

Фактор Королев/Палех: алгоритм, учитывающий то, что не является вставными частями запроса (тематичные слова - часто используются в превью карточек товара в листингах):
буквенные триграммы
слова и биграммы, не являющиеся частью запроса
На какие зоны разбивается документ?
title
текстовая зона
текст исходящих ссылок *для Яндекс
Пассаж - это предложения, как их видит поиск.
. ? ! - разбивают пассаж, если после них стоит пробел
; | / - не делят пассаж

Порядок нарезания факторов Яндексом
точная форма/лексема/синсет
униграмма/биграмма/длинные
метод взвешивания (равнозначность, IDF, машинно подобранные веса)
зона документа

Выжимка сделана руководителем отдела производства Ильёй.

#seo #курс #seoкурс