Сотни сайтов прямо сейчас получают бесплатный трафик из ответов ChatGPT - в виде прямых ссылок и цитат. Ваш сайт среди них, скорее всего, не числится. И дело здесь не в том, что ваши тексты хуже или тема менее интересна. Причина куда прозаичнее: техническая конфигурация, которую никто не трогал с момента запуска сайта.
Анализ technologychecker.io на основе данных Cloudflare Radar за первый квартал 2026 года - 81 миллион HTTP-запросов в секунду, 330 точек присутствия, 125+ стран - показывает: 89,4% трафика от AI-краулеров генерируют тренировочные и смешанные боты. Они забирают контент и не возвращают ничего взамен. На поисковые и пользовательские боты, которые реально формируют цитирования в ответах, приходится лишь 10,2%. Разница между сайтом, который ChatGPT цитирует, и сайтом, который он не замечает, часто умещается в несколько строк конфига.
Причина 1 - Вы заблокировали не тот бот OpenAI - или сразу все три
OpenAI держит в работе три технически разных краулера, и большинство владельцев сайтов не подозревают, что между ними есть принципиальная разница.
GPTBot - тренировочный бот. Он ходит по сайтам и собирает данные для обучения будущих версий моделей. На то, попадет ли ваш сайт в ответы ChatGPT Search, он не влияет никак.
OAI-SearchBot - поисковый индексатор. Именно он решает, будет ли ваш материал фигурировать как источник, когда пользователь задает вопрос в ChatGPT. Заблокируете его - и вас там нет, независимо от качества контента.
ChatGPT-User - бот реального времени. Срабатывает, когда живой пользователь просит ChatGPT зайти на конкретную страницу и прочитать ее содержимое.
Данные Hostinger по 66,7 миллиарда запросов фиксируют показательную картину: GPTBot сейчас открыт лишь на 12% сайтов - год назад он добирался до 84%. Семь сайтов из восьми его закрыли. OAI-SearchBot при этом сохраняет охват на уровне 55,67%. Издатели постепенно научились отделять «отдать контент на обучение модели» от «получить цитирование в поисковых ответах» - это разные вещи, и управляются они разными директивами.
Если в вашем robots.txt одной строкой закрыт весь домен для любых ботов OpenAI, ChatGPT Search попросту не сможет вас проиндексировать. Технически корректная конфигурация выглядит так:
# Тренировочный бот - блокируем
User-agent: GPTBot
Disallow: /
# Поисковый бот - открываем, именно он дает цитирования
User-agent: OAI-SearchBot
Allow: /
# Пользовательский бот - открываем, реальные запросы живых людей
User-agent: ChatGPT-User
Allow: /
Один нюанс, о котором стоит знать: в декабре 2025 года OpenAI внес правку в документацию и убрал ChatGPT-User из перечня ботов, которые обязаны соблюдать robots.txt. Аргументация такая - когда пользователь сам просит ChatGPT открыть страницу, это по смыслу ближе к действию человека в браузере, чем к автономному краулингу. С точки зрения видимости это скорее хорошая новость: значит, реальные люди уже взаимодействуют с вашим контентом через ChatGPT. С точки зрения контроля - важно понимать, что robots.txt здесь не дает полных гарантий.
Отдельная точка отказа, о которой часто забывают - Cloudflare и другие CDN. Их настройки Bot Management могут блокировать AI-краулеров на сетевом уровне, не считаясь с тем, что написано в robots.txt. Если вы на Cloudflare, зайдите в Security → Bots и убедитесь, что OAI-SearchBot не попадает под общие ограничительные правила.
Причина 2 - Отсутствие структурированных данных Schema.org / JSON-LD
AI-краулеры работают с сырым HTML. Schema markup - это не декоративный слой для поисковиков, а машиночитаемый способ прямо сказать языковой модели: вот вопрос, вот ответ, вот название организации, вот характеристики продукта. Без этого слоя модель вынуждена самостоятельно угадывать, что на странице главное, а что второстепенное.
Microsoft официально подтвердил, что Bing и Copilot используют schema-разметку для интерпретации контента при работе LLM-моделей. По данным RadarLLM за 2025–2026 годы, сайты с корректной JSON-LD разметкой получают рост видимости в AI Overviews в среднем на 30%. Анализ thedigitalbloom.com показывает, что лишь 11% сайтов одновременно цитируются и в ChatGPT, и в Perplexity - structured data стабильно входит в число факторов, отличающих тех, кто попадает в оба источника, от тех, кто не попадает ни в один.
Из всех типов схем наибольшую отдачу для AI-цитирований дает FAQPage. Причина простая: формат «вопрос - ответ» буквально повторяет то, как ChatGPT строит свои ответы пользователям. Также полезны Article, Organization, Product, HowTo и Review.
Проверить текущее состояние разметки можно через Google Rich Results Test по адресу search.google.com/test/rich-results. Ищите ошибки валидации и незаполненные обязательные поля - они снижают доверие к разметке со стороны парсеров.
Пример корректной реализации FAQPage в <head> страницы:
{
"@context": "https://schema.org",
"@type": "FAQPage",
"mainEntity": [
{
"@type": "Question",
"name": "Как ChatGPT выбирает источники для цитирования?",
"acceptedAnswer": {
"@type": "Answer",
"text": "ChatGPT Search использует OAI-SearchBot для индексации страниц. Приоритет получают сайты с чистым HTML-контентом, корректной Schema.org разметкой и упоминаниями в авторитетных внешних источниках."
}
}
]
}
Дополнительный инструмент, который набирает вес - файл llms.txt в корне сайта. Это текстовый документ в markdown-формате, описывающий структуру сайта, приоритетные страницы и контекст бизнеса. В отличие от robots.txt он ничего не ограничивает, а помогает AI-модели понять, о чем вообще ваш сайт и какие материалы на нем наиболее значимы. Связка llms.txt плюс аккуратная JSON-LD schema - на сегодняшний день один из наиболее работающих технических стеков для AI-видимости.
Причина 3 - Контент живет в JavaScript, а бот видит пустую страницу
OAI-SearchBot и GPTBot не исполняют JavaScript. Они получают статичный HTML и работают только с ним. Если ваш сайт построен на React, Vue или Angular с клиентским рендерингом, краулер получает примерно следующее:
<div id="root"></div>
Весь контент, который браузер пользователя красиво собирает на лету, для бота попросту не существует.
Это не теоретический сценарий. Значительная доля корпоративных сайтов, SaaS-лендингов и e-commerce платформ отдает ботам пустой HTML-каркас. Контент при этом может быть по-настоящему сильным - ChatGPT об этом никогда не узнает, потому что до него этот контент не доходит.
Проверка занимает меньше минуты: откройте нужную страницу в браузере, нажмите Ctrl+U и посмотрите на исходный HTML. Если основной текст там отсутствует - проблема подтверждена.
Решение зависит от технического стека. Для ключевых страниц - главной, продуктовых, статей - нужен серверный рендеринг (SSR) или статическая генерация (SSG). Next.js, Nuxt.js и Gatsby реализуют это нативно. Для интернет-магазинов особенно важны описания товаров в статичном HTML - именно они попадают в AI-ответы на вопросы о конкретных продуктах.
Техническая доступность контента - только половина задачи. Вторая половина - его структура. Боты лучше усваивают страницы, где главный ответ сформулирован в начале, где используются заголовки H2/H3, таблицы и списки, и где каждый абзац достаточно самодостаточен, чтобы быть понятным вне контекста остальной страницы. В среде технических SEO-специалистов это называют «Island Test»: если вырезать абзац и поставить его отдельно, сохраняет ли он смысл? Если нет - шанс на то, что именно его процитирует ChatGPT, невысок.
Причина 4 - Инфраструктурные барьеры, которые не видны в конфиге
Даже безупречный robots.txt и аккуратная schema-разметка не гарантируют доступ, если где-то в инфраструктуре стоит невидимый блок.
CDN и WAF. Cloudflare в ряде конфигураций по умолчанию отправляет AI-ботов на JavaScript Challenge или CAPTCHA. Бот, столкнувшись с такой страницей, не получает контент и уходит. Ваш robots.txt при этом безупречен - просто до него никто не добрался. Путь проверки: Security → Bots в панели Cloudflare, убедиться, что OAI-SearchBot, PerplexityBot и Bingbot не попадают под блокирующие правила.
Архитектура сайта. Цепочки редиректов, битые внутренние ссылки, страницы за авторизацией или платным доступом - все это обрывает обход сайта краулером на полпути. AI-боты, как и классические поисковые краулеры, теряют страницы при нарушенной структуре. Актуальный XML sitemap с корректными canonical URL - не опция, а базовое условие полного охвата.
Внешние упоминания. Языковые модели принимают решение о цитировании не только на основе содержимого вашего сайта. Важен контекст: как часто и в каких источниках вас упоминают - отраслевые издания, Wikipedia, профессиональные сообщества, авторитетные ресурсы по теме. Сайт с сильным контентом, но без внешнего присутствия проигрывает менее качественному конкуренту, о котором принято говорить.
Агрессивный краулинг. GPTBot способен создавать заметную нагрузку на отдельные URL. Если сервер или CDN интерпретирует такой трафик как атаку и автоматически блокирует IP-диапазоны OpenAI - возникает фактическая блокировка, не отраженная ни в каких явных настройках. Мониторинг серверных логов и директива Crawl-delay для агрессивных ботов решают эту проблему до того, как она становится заметной.
Причина 5 - Сайт не проиндексирован в Bing
Это наименее очевидная из пяти причин, и именно поэтому она чаще всего остается незамеченной. ChatGPT Search использует Bing как один из основных источников для формирования актуальных ответов. По данным исследования RankStudio (октябрь 2025), Bing-индексация входит в число ключевых технических факторов для появления в ответах ChatGPT Search.
Большинство сайтов годами выстраивали SEO под Google и не уделяли Bing никакого внимания. Bing Webmaster Tools установлен на значительно меньшем количестве сайтов, чем Google Search Console. Ошибки сканирования в Bing могут существовать годами без единого уведомления - просто потому что никто туда не заходил и не смотрел. Между тем именно через Bingbot формируется существенная часть того, что ChatGPT знает о текущем состоянии веба.
Минимальный чек-лист: зарегистрируйтесь в Bing Webmaster Tools на bing.com/webmasters, отправьте XML sitemap, просмотрите ошибки сканирования, убедитесь, что Bingbot не заблокирован ни в robots.txt, ни на уровне CDN. Отдельно проверьте noindex мета-теги на приоритетных страницах - они одинаково работают и в Google, и в Bing.
Быстрый аудит: что проверить за 15 минут
Последовательность, которая дает полную картину без лишних инструментов:
https://yoursite.com/robots.txt
Ищите в выводе: GPTBot, OAI-SearchBot, ChatGPT-User, bingbot. Поисковые и пользовательские боты должны быть открыты.
Серверные логи - поиск по тем же user-agent строкам. Если разрешенные боты не появляются вообще, проблема на уровне CDN или WAF, а не robots.txt.
Raw HTML - Ctrl+U на ключевых страницах. Контент должен присутствовать в исходнике без исполнения JavaScript.
Structured data - Google Rich Results Test. Ошибки валидации в FAQPage и Article на приоритетных страницах исправить в первую очередь.
AI-видимость - задайте ChatGPT вопрос по теме вашего сайта и попросите указать источники. Если конкуренты с технически сопоставимым контентом цитируются, а вы нет - ответ почти наверняка в одной из пяти причин выше.
Bing Webmaster Tools - раздел Index - Pages. Количество проиндексированных страниц должно примерно соответствовать Google Search Console.
Что делать в первую очередь
Данные указывают на одну общую логику: разделите управление тренировочными и поисковыми ботами. Заблокировать GPTBot - разумное решение, если вы не хотите бесплатно отдавать контент для обучения моделей. Но OAI-SearchBot при этом должен быть открыт: именно он обеспечивает присутствие в ChatGPT Search. Большинство крупных издателей уже пришли именно к этой конфигурации.
Рабочий технический стек для AI-видимости выглядит так: серверный рендеринг или статическая генерация для приоритетных страниц, JSON-LD schema как минимум с FAQPage и Article, файл llms.txt в корне, открытые OAI-SearchBot и Bingbot, отсутствие блокировок на уровне CDN. Все это проверяется и настраивается за один рабочий день - без привлечения разработчиков для большей части пунктов.
А если остались вопросы, с радостью отвечу на них в личных сообщениях Телеграм и даже MAX)))