17 подписчиков

Съедят ли чат-боты SEO

15 марта 202415 мар 2024

3 мин

Большие языковые модели (LLM) основаны на концепции трансформеров. Суть их работы можно упрощённо описать так: Примерно так работают алгоритмы формирования подсказок, автозаполнения и т.п. Чем чаще воспроизводится последовательность - тем выше вероятность появления определенного токена в последовательности.

Иными словами, генеративные языковые модели ничего не могут писать сами так, как это делают люди: это эмуляция, определяемая множеством параметров, сгенерированных в ходе обучения. И проблемы там начинаются стандартные: по мере удаления от исходного токена модель теряет уверенность, не получая подсказок.

Вы видели это в подсказках того же Яндекс: с добавлением каждого нового слова в подсказку она всё очевиднее превращается в полный бред. Любое неожиданное слово прерывает процесс генерации подсказки. Основные проблемы больших языковых моделей Пожалуй, основной проблемой больших языковых моделей стоит считать корпуса. Для обучения берутся готовые коллекции документов: Википедия, Blo

Оглавление

Основные проблемы больших языковых моделей
Как можно использовать LLM в SEO

Большие языковые модели (LLM) основаны на концепции трансформеров. Суть их работы можно упрощённо описать так:

На вход подаётся некоторый корпус - коллекция документов, на которой нейросеть будет обучаться
Анализируя корпус, нейросеть обнаруживает вероятность того, что некоторое слово последует за другим
Модель использует контекст окружающих слов, а не обычную последовательность слов (как это реализовано в привычном для всех T9)
Генеративная языковая модель экстраполирует текст до длины, указанной пользователем, пытаясь предсказать следующий токен в последовательности.

Примерно так работают алгоритмы формирования подсказок, автозаполнения и т.п. Чем чаще воспроизводится последовательность - тем выше вероятность появления определенного токена в последовательности.

Иными словами, генеративные языковые модели ничего не могут писать сами так, как это делают люди: это эмуляция, определяемая множеством параметров, сгенерированных в ходе обучения. И проблемы там начинаются стандартные: по мере удаления от исходного токена модель теряет уверенность, не получая подсказок.

Вы видели это в подсказках того же Яндекс: с добавлением каждого нового слова в подсказку она всё очевиднее превращается в полный бред. Любое неожиданное слово прерывает процесс генерации подсказки.

Основные проблемы больших языковых моделей

Пожалуй, основной проблемой больших языковых моделей стоит считать корпуса. Для обучения берутся готовые коллекции документов: Википедия, Blogspot, архивы интернета, крупные масс-медиа, GitHub и т.п.

Можно ли считать эти корпуса идеальными? - Разумеется, нет. Точно так же, как и любую информацию в интернете. Кроме того, эти данные быстро устаревают.

Другой момент: данные, используемые для обучения, можно назвать предвзятыми. Это лишь отражение малой части аудитории планеты, активная часть интернет-пользователей. Общественный дискурс интернета никак нельзя считать общим.

Вторая серьёзная проблема: то, что мы воспринимаем как связный текст, таковым не является. Это просто своего рода мозаика, случайно объединенные лингвистические фрагменты с вероятностной информацией о комбинировании этих элементов. Оно выглядит осмысленным, но смысла не содержит. Модель не пытается ничего сказать, она лишь воспроизводит обломки чужих высказываний, смысла которых не понимает.

Третья проблема: обучение очень дорого, начиная от финансовых затрат и заканчивая экологическими. С учетом актуальной для Запада экологической повестки этот пункт может стать решающим.

Четвертой основной проблемой я бы назвал кольцевой эффект сгенерированного контента: то, что сгенерировано одной версией моделей, становится корпусом для последующих. Слепая копия, калька с кальки, игра в глухой телефон.

Как можно использовать LLM в SEO

Вы, безусловно, прочитали много радостных статей на тему "Как мы нагенерировали 100500 статей и получили трафик". Не рекомендую это повторять:

а) Если у вас серьёзный бизнес, а не монетизация через РСЯ - это дурно скажется на конверсиях. Контент, генерируемый чат-ботами - бессмысленен, и это заметно невооруженным глазом.

б) Пустопорожняя писанина рано или поздно будет выкошена поисковиками как и любой другой спам. Google, собственно, уже анонсировал чистки.

Но это вовсе не значит, что надо отказываться от нового инструментария. Просто надо адекватно оценивать его возможности и находить сферы применения. Рассмотрим основные.

Генерация коротких текстов. Чем короче текст, созданный LLM, тем он выглядит более осмысленным. Если ваша цель - сократить время на написание отдельных элементов текста, чат-боты - хороший вариант. Но и в этом случае их придётся редактировать. Если вам понадобится сводка, метаописания или короткие коммерческие тексты на страницы каталога - это вариант.
Анализ текстового контента. Если вам нужен аудит семантики заданной темы вы можете парсить десятки и сотни страниц из топа выдачи, чтобы потом выявить там самые весомые ключевые слова. С помощью генеративных моделей можно серьёзно срезать углы: сгенерированный таким образом текст как раз и будет представлять собой такую выжимку.
LLM хорошо справляются с суммированием больших текстов. Если вам нужно получить качественную выжимку из готового текста - это тоже вариант.

И конечно же, генерация изображений. Нейросети - часть поисковых систем, и работают ровно по тем же принципам. Если вам нужно получить уникальное изображение, при этом соответствующее какому-то паттерну, принятому поисковыми системами - пользуйтесь.

Не рассчитывайте получить что-то в готовом виде. Всё сгенерированное надо редактировать и доводить до ума. Если вам нечего сказать другим людям – машина за вас не скажет.