Канал о нейронных сетях от Дмитрия Андрияшкина
Google: блокировки и понижения за AI-контент
- Март 2024 – массовая деиндексация AI-сайтов. Google в рамках обновления ядра (March 2024 Core Update) и работы алгоритма выявления спама (SpamBrain) осуществил масштабные санкции против сайтов с автосгенерированным контентом. По данным анализа ~49 000 сайтов, около 837 ресурсов (~1,7%) были полностью удалены из индекса Google (Google's March 2024 Core Update Impact: Hundreds Of Websites Deindexed). В сумме эти сайты потеряли ~20,7 млн органических визитов в месяц, лишившись поискового трафика и ~$446 тыс. рекламных доходов (Google's March 2024 Core Update Impact: Hundreds Of Websites Deindexed). Это беспрецедентный случай массового бана за контент низкого качества.
- 1146+ сайтов наказаны за AI-тексты. Исследование компании Originality.AI подтвердило, что 100% деиндексированных Google сайтов содержали признаки AI-сгенерированного текста, причём у 50% из них 90–100% всех публикаций были созданы нейросетью (Google's March 2024 Core Update Impact: Hundreds Of Websites Deindexed). Всего было выявлено около 1146 сайтов, получивших от Google ручной штраф за «автоматически сгенерированный бессмысленный контент» (пометка Pure spam / Automatically generated gibberish в Search Console) (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews). В результате эти ресурсы были полностью исключены из поиска (деиндексация).
- Примеры пострадавших ресурсов. Под санкции Google попали крупные контент-проекты, наполненные AI-генерациями: например, FreshersLive.com (новостной портал с ~5 млн страниц контента) (Google's March 2024 Core Update Impact: Hundreds Of Websites Deindexed), Filmifeed.com (база биографий знаменитостей), PopularBio.com, PopularNetWorth.com и NetWorthPost.org (сайты с биографиями и состояниями известных людей). После обновления Google в марте 2024 эти сайты практически исчезли из выдачи, потеряв 90–100% прежнего поискового трафика (Some Sites Have Been Deindexed completely or almost completely in light of the March 24 updates | BlackHatWorld) (Some Sites Have Been Deindexed completely or almost completely in light of the March 24 updates | BlackHatWorld). Показательно, что ряд ресурсов (например, FreshersLive) после апелляций частично вернули в индекс лишь малую долю страниц, тогда как тысячи авто-сгенерированных страниц остались заблокированы.
- Алгоритмы и политика Google. Ещё в 2022 г. представители Google (в частности, Джон Мюллер) заявляли, что тексты, сгенерированные AI, рассматриваются как спам и нарушают руководства для вебмастеров (Google Says AI Generated Content Is Against Guidelines). Тогда допускалась ручная санкция, если модераторы обнаружат автогенерированный контент. Однако в феврале 2023 г. Google обновил официальные рекомендации, уточнив, что не запрещает AI-контент как таковой, а оценивает прежде всего его качество и полезность для пользователей (Google's Guidelines on AI-Generated Content (Updated April 2023)) (Google's Guidelines on AI-Generated Content (Updated April 2023)). Автоматически созданные тексты, сделанные “для поисковых машин”, по-прежнему считаются нарушением: Google внедрил обновление Helpful Content и усилил систему SpamBrain для выявления шаблонных AI-страниц, созданных с целью манипулировать рейтингом (Google's Guidelines on AI-Generated Content (Updated April 2023)) (Google's Guidelines on AI-Generated Content (Updated April 2023)). В итоге бесполезный AI-контент подвергается фильтрации: такие сайты либо понижаются в результатах, либо вовсе удаляются из индекса (в зависимости от тяжести спама) (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews). Google подчёркивает приверженность принципам E-E-A-T и уверяет, что качественный контент, даже созданный при помощи ИИ, не будет обделён вниманием, тогда как “автогенерированный мусор” неизбежно получит понижающие санкции (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews) (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews).
Яндекс: фильтры против сгенерированного контента
- Фильтр АГС – удаление “генераторных” сайтов. Исторически Яндекс одним из первых ввёл алгоритмический фильтр АГС (запущен ещё в 2009 г.) для отсеивания сайтов с автоматическим, шаблонным контентом. Этот фильтр заносил в чёрный список так называемые сателлиты – ресурсы, созданные не для людей, а ради заработка на SEO-ссылках, заполненные массой скопированных или сгенерированных страниц (АГС (фильтр) — Википедия). В результате наложения АГС сайт фактически банился: из поиска исключались большинство его страниц с повторяющимся или бесполезным содержимым (АГС (фильтр) — Википедия). Впоследствии (к 2014–2015 гг.) фильтр модифицировали, но принцип остался – сайты с некачественным контентом и признаками генерации лишались видимости в Яндексе.
- Алгоритм 2023: детекция AI-контента. В марте 2023 г. Яндекс сообщил об обновлении поисковых алгоритмов, значительно усиливших борьбу с некачественными текстами. По данным компании, точность распознавания низкокачественных документов (в том числе созданных с помощью ИИ) возросла до 99% (Сайты с качественным контентом смогут получать больше трафика после обновления алгоритмов в Поиске Яндекса — Блог Яндекса для вебмастеров). Благодаря этим изменениям число ресурсов с плохим контентом на первой странице выдачи сократилось в несколько раз. Яндекс прямо указал, что сайты, злоупотребляющие сгенерированными или заимствованными текстами, рискуют получить санкции: их страницы будут понижены в ранжировании или удалены из индекса (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews) (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews). В частности, под удар попадает сгенерированный или скопированный контент (не важно, написан нейросетью или украден с другого сайта) – итог один, ресурс получит фильтр (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews). Также алгоритмы вычисляют так называемую “воду” (большое количество пустых, не несущих пользы слов) и контент с низкой ценностью для читателя – такие материалы Яндекс тоже не продвигает в топ (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews).
- Заявления Яндекса о нейроконтенте. В официальном блоге для вебмастеров Яндекс подчеркнул, что само по себе использование нейросети не является негативным фактором. Важны качество и экспертиза: сгенерированные тексты должны быть проверены экспертом, не вводить пользователей в заблуждение и реально помогать им решать задачу (Сайты с качественным контентом смогут получать больше трафика после обновления алгоритмов в Поиске Яндекса — Блог Яндекса для вебмастеров). То есть поисковик придерживается принципа “контент для людей” вне зависимости от способа его создания. Вместе с тем, Яндекс даёт понять, что непростит публикацию массовых AI-текстов без ценности. В 2024 г. компания указала, за что конкретно будет карать: за несущие пользу для пользователя сгенерированные материалы, за перегруженность “водой”, отсутствие достоверности и экспертизы (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews) (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews). В тематиках, чувствительных для здоровья, финансов, права и пр., требования ещё жёстче: нейросетевой контент без участия профильного специалиста фактически запрещён, такие страницы либо не будут ранжироваться, либо не попадут в индекс вовсе (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews) (во избежание риска для пользователей).
- Примеры санкций от Яндекса. Конкретные кейсы Яндекс публично практически не раскрывает, однако известно о ряде случаев. Например, SEO-исследователи отмечали, что страницы, рассказывающие “как генерировать тексты нейросетью без вреда для сайта”, улетели из выдачи – очевидно, за попытку обойти же фильтры поисковика (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews). Массовые “ГС” (говносайты) с тысячами AI-страниц, созданные для трафика, также быстро ловят фильтр: так, специалисты описывают сценарии, когда за день генерируется сайт на 300 тыс. страниц (или десятки таких сайтов), где одна и та же информация просто переписана нейросетью разными словами – подобные проекты Яндекс пессимизирует, так как они несут минимум пользы ( Когда Яндекс забанит все сайты с текстами, написанными нейросетями. И как повысить доверие поиска к сгенерированным...) ( Когда Яндекс забанит все сайты с текстами, написанными нейросетями. И как повысить доверие поиска к сгенерированным...). Известно и о курьёзных ситуациях: в 2023 г. под новый “нейросетевой” алгоритм Яндекса попали даже качественные ресурсы. Около трети региональных новостных сайтов были временно исключены из индекса из-за того, что алгоритм посчитал их новости неоригинальными (рерайтом друг друга) (Вас забанила нейросеть: как новый алгоритм Яндекса постепенно выкидывает из поиска региональные СМИ / Хабр). Хотя в этих случаях имели место ошибочные срабатывания, факт остаётся фактом – Яндекс очень строго отслеживает уникальность и оригинальность контента, применяя санкции даже за косвенные признаки автоматической генерации.
Вывод: и Google, и Яндекс в 2023–2024 гг. ужесточили подход к автоматически созданному контенту. Полный бан (деиндексация) грозит сайтам, которые массово наполняют страницы необработанным AI-текстом низкого качества. Частичное понижение в выдаче применяется, если доля бесполезного нейроконтента велика, но не тотальна. Поисковики рекомендуют при использовании ИИ-фразу для генерации обязательно обеспечивать редактуру человеком и добавлять экспертную ценность. Официальная позиция сводится к одному: допустимо применять AI при создании материалов, но ответственность за качество несёт человек. Сайты же, пытающиеся легко получить трафик на основе сырого AI-контента, неизбежно столкнутся с фильтрами поисковых алгоритмов (Сайты с качественным контентом смогут получать больше трафика после обновления алгоритмов в Поиске Яндекса — Блог Яндекса для вебмастеров) (Как Яндекс и Google борются с контентом, созданным нейросетью | Статьи SEOnews).