13 подписчиков

Урок 4 курса Чекушина Продвижение интернет машазинов, который сейчас проходим.

Текстовая оптимизация

Не все зоны документа индексируются:

description

keywords

title ссылок

динамические элементы (JavaScript)

Индексируемые элементы документа подвергаются токенизации - разделение на слова. Она делит текст на слова, определяет их часть речи и избавляется от знаков препинания (кроме дефисов в словах).

Лемматизация - приведение слова к его исходной форме. Текстовые факторы работают на лексемах, то есть, на изначальных словоформах.

Также в большинстве факторов убираются служебные части речи

Поиск также распознает синонимы, если быть точнее, синсеты - объединение слов, относящихся к одному явлению. “Синонимы” в синсетах могут быть не взаимными (слово а является синонимом слову б, но слово б не является синонимом слову а)

Чтобы найти такие синонимы в Яндексе забиваем запрос -> смотрим подсветки-синонимы в сниппетах -> к адресу запроса добавляем GET-параметр &nosyn=1 -> то, что перестало подсвечиваться является синонимом

Основные текстовые факторы основаны на “мешке слов”: берем все слова документа и убираем всю последовательность и их связанность между собой. Факторы от “мешка слов” - TF (отношение количества вхождений слова к общему количеству слов в документе) и BM25 (нормированное количество слов)

Поиск использует два подхода к оценке документа (при наличии в запросе более 1 слова):

подход равнозначности - по мешку слов оба слова из запроса считаются с одинаковым весом (BM25 по одному слову, BM25 по другому слову, ...)

способы взвешивания

IDF (Inverted Document Frequency - логарифм отношения количества всех документов к количеству документов, содержащих определенное слово); чем реже слово встречается в сети, тем оно значимее.

ICF - примерно как IDF, только сравнивает с корпусом языка

машинно подобранные веса - поиск на основе машинного обучения индивидуально подбирает веса к словам

Как поиск учитывает порядок слов? Здесь в качестве токена выступает биграмма и расстояние Левенштейна (рассчитывается по количеству итераций в порядке слов для приведения биграмму в изначальное состояние *купить телевизор москва = купить телевизор в Москве) для расчета веса при изменении порядка слов в биграмме (“мобильные телефоны” = 1, “телефоны мобильные” = 0,5, “мобильные * телефоны”, где * - любое слово кроме служебного = 0,5)

Фактор Королев/Палех: алгоритм, учитывающий то, что не является вставными частями запроса (тематичные слова - часто используются в превью карточек товара в листингах):

буквенные триграммы

слова и биграммы, не являющиеся частью запроса

На какие зоны разбивается документ?

title

текстовая зона

текст исходящих ссылок *для Яндекс

Пассаж - это предложения, как их видит поиск.

. ? ! - разбивают пассаж, если после них стоит пробел

; | / - не делят пассаж

Порядок нарезания факторов Яндексом

точная форма/лексема/синсет

униграмма/биграмма/длинные

метод взвешивания (равнозначность, IDF, машинно подобранные веса)

зона документа

Выжимка сделана руководителем отдела производства Ильёй.

#seo #курс #seoкурс

3 мая