290 подписчиков

GIST — новый этап интеллектуальной выборки данных и его применение в поиске .

31 января31 янв

3 мин

Google на днях представила новый алгоритм машинного обучения GIST, который помогает обучать модели быстрее и эффективнее, не используя весь массив данных. Алгоритм решает проблему в два этапа: Чтобы это делалось быстро и эффективно, GIST пробует разные уровни порогов разнообразия и находит лучший баланс между разнообразием и полезностью с помощью данного алгоритма. Сам процесс отбора очень быстрый по сравнению с самим обучением моделей, что делает его практичным даже для огромных наборов данных. К чему я это пишу? К тому, что описанный алгоритм как нельзя лучше ложится на принципы веб-поиска. GIST идеально ложится на реальные SEO-задачи, особенно сейчас, когда поиск и AI-ответы всё больше зависят от качества, а не количества данных. Поисковая система решает ту же самую задачу, что и GIST в ML: Из огромного массива похожих сущностей выбрать небольшое подмножество, которое даст максимальный эффект. Сущности могут быть: ключевые запросы, страницы, тексты, интенты, анкоры, доноры ссылок,

Google на днях представила новый алгоритм машинного обучения GIST, который помогает обучать модели быстрее и эффективнее, не используя весь массив данных.

Как работает GIST?

Алгоритм решает проблему в два этапа:

Сначала он задает порог минимального разнообразия — то есть минимальное расстояние между любыми двумя выбранными точками (в пространстве признаков) и строит граф, где похожие точки связаны между собой.
Далее GIST ищет подмножество точек, которые не связаны между собой (то есть достаточно разные), но при этом дают максимальную суммарную пользу для обучения. Это похоже на поиск гостей для идеальной вечеринке: ты хочешь много интересных людей, но не тех, которые конфликтуют между собой.

Чтобы это делалось быстро и эффективно, GIST пробует разные уровни порогов разнообразия и находит лучший баланс между разнообразием и полезностью с помощью данного алгоритма. Сам процесс отбора очень быстрый по сравнению с самим обучением моделей, что делает его практичным даже для огромных наборов данных.

К чему я это пишу? К тому, что описанный алгоритм как нельзя лучше ложится на принципы веб-поиска. GIST идеально ложится на реальные SEO-задачи, особенно сейчас, когда поиск и AI-ответы всё больше зависят от качества, а не количества данных.

Поисковая система решает ту же самую задачу, что и GIST в ML: Из огромного массива похожих сущностей выбрать небольшое подмножество, которое даст максимальный эффект.

Сущности могут быть: ключевые запросы, страницы, тексты, интенты, анкоры, доноры ссылок, куски контента для LLM / AI-ответов

GIST = максимум пользы + минимум повторов + сохранение разнообразия.

AI-SEO и попадание в ответы LLM — это на самом деле прямое применение GIST. Языковые модели не читают весь интернет и не пытаются учесть всё. Они выбирают несколько фрагментов, которые не повторяют друг друга, закрывают разные стороны вопроса и выглядят максимально полезными. По сути, им нужен набор разных смыслов, а не куча одинаковых формулировок.

И вот тут начинаются проблемы у сайтов. Если контент построен только на максимальном раскрытии семантики, если на сайте нет своих смысловых якорей и чётких акцентов, модель просто не видит причин брать именно тебя. Такой сайт не плохой — он просто сливается с шумом и не попадает в выборку.

Если смотреть на сайт через призму GIST, сразу становится понятно, почему плоская структура почти всегда работает плохо. Когда все страницы похожи друг на друга, для поиска и для AI они превращаются в одну кучу — смыслы слипаются, ценность размывается.

Страницы не должны быть для полного раскрытия миллионной семантики. Каждая нужна не "для галочки", а чтобы усиливать какой-то свой, отдельный кусок темы. Один вопрос — одна страница, один смысл — одна роль.

А хабы в этой логике — это не просто разделы. Это самые ценные точки на сайте, страницы с максимальным весом, которые собирают вокруг себя всё остальное и дают поиску понять: вот здесь главное, отсюда всё растёт.

GIST-подход в AI-SEO и SEO— это когда страниц становится меньше, но каждая из них про что-то своё. Когда между ними есть реальные смысловые различия и задачи. Когда у каждой страницы понятная роль и специализация. И когда внутри есть фрагменты с высокой ценностью — чёткие определения, сравнения, таблицы, куски, которые удобно забрать в ответ. Именно такие вещи LLM замечают и выбирают.

Если убрать все термины, главное SEO-следствие тут очень простое. Поиск движется ровно туда же, куда давно движется машинное обучение. Важен уже не объём, а информационная ценность того, что ты отдаёшь. Не сколько у тебя страниц, текстов или ключей, а насколько эта выборка вообще имеет смысл.

GIST просто дал формулы и язык для того, что адекватные SEO-специалисты давно чувствуют на уровне интуиции. Меньше мусора, меньше повторов, больше осмысленных различий. Понятная структура, где каждая страница не случайная, а со своей ролью и причиной существовать. И именно это сегодня начинает решать больше, чем любые количественные показатели.

Бизнес и финансы

1,13 млн интересуются