44 подписчика

80% вашего сайта — мусор для AI. Cloudflare придумал, как это исправить

27 февраля27 фев

8 мин

Рубрика: AI-сводка Пока мы с вами спорили, заменит ли нас искусственный интеллект на работе, интернет тихо начал перестраиваться — но не для нас, а для наших новых цифровых коллег. Тридцать лет мы, по большому счёту, занимались одним и тем же — делали веб красивее для человеческих глаз. Навигационные меню, анимации, баннеры, всплывающее окно с просьбой принять cookie, ещё одно — с предложением подписаться на рассылку, третье — с напоминанием, что у них сейчас скидки. И где-то под всем этим великолепием — собственно, текст, ради которого вы пришли. Ирония в том, что самые активные новые «пользователи» интернета — AI-агенты — от всей этой красоты буквально задыхаются. Ну вот представьте: вы отправили кому-то письмо, но вместо конверта упаковали его в коробку из-под телевизора, обклеили рекламными листовками, засыпали пенопластовыми шариками и сверху положили инструкцию по сборке шкафа из IKEA. Получатель до письма, конечно, доберётся — но будет сильно раздражён. Так вот, обычная веб-стра

Оглавление

Веб, который мы заслужили (но не тот, что нужен роботам)
Что такое Markdown for Agents и почему это важнее, чем кажется
Параллельная вселенная: llms.txt и другие попытки «поговорить с роботами»

Рубрика: AI-сводка

Пока мы с вами спорили, заменит ли нас искусственный интеллект на работе, интернет тихо начал перестраиваться — но не для нас, а для наших новых цифровых коллег.

Веб, который мы заслужили (но не тот, что нужен роботам)

Тридцать лет мы, по большому счёту, занимались одним и тем же — делали веб красивее для человеческих глаз. Навигационные меню, анимации, баннеры, всплывающее окно с просьбой принять cookie, ещё одно — с предложением подписаться на рассылку, третье — с напоминанием, что у них сейчас скидки. И где-то под всем этим великолепием — собственно, текст, ради которого вы пришли. Ирония в том, что самые активные новые «пользователи» интернета — AI-агенты — от всей этой красоты буквально задыхаются.

Ну вот представьте: вы отправили кому-то письмо, но вместо конверта упаковали его в коробку из-под телевизора, обклеили рекламными листовками, засыпали пенопластовыми шариками и сверху положили инструкцию по сборке шкафа из IKEA. Получатель до письма, конечно, доберётся — но будет сильно раздражён. Так вот, обычная веб-страница с точки зрения языковой модели выглядит примерно так же: полезный контент — процентов двадцать от силы, а всё остальное — упаковочный мусор из HTML-тегов, CSS-классов, JavaScript-скриптов и рекламных трекеров.

И вот на этом фоне Cloudflare — компания, через серверы которой проходит примерно пятая часть всего мирового веб-трафика — в феврале анонсировала штуку под названием Markdown for Agents. Звучит как техническая мелочь, но последствия у этой «мелочи» могут оказаться огромными.

Что такое Markdown for Agents и почему это важнее, чем кажется

Суть — проще некуда. Когда AI-агент (будь то Claude Code, ChatGPT-бот или поисковый краулер OpenAI) заходит на сайт, работающий через Cloudflare, он может вежливо попросить: «Слушай, а можно мне не весь этот HTML-праздник, а просто текст в Markdown?» Технически это делается через стандартный HTTP-заголовок Accept: text/markdown — механизм, который, между прочим, существует в протоколе HTTP с 1999 года, но до сих пор никому особо не был нужен.

Cloudflare перехватывает этот запрос на своей стороне, берёт оригинальный HTML, снимает с него все декоративные слои и возвращает чистый, структурированный Markdown. Сайт-источник даже не знает, что произошло преобразование — он как отдавал HTML, так и продолжает.

Цифры, надо сказать, впечатляют. Один и тот же блог-пост Cloudflare в HTML-формате — это 16 180 токенов. В Markdown — 3 150. Экономия примерно 80%. Если вы не работаете с AI-сервисами, это может показаться абстракцией, но для моделей, которые платят за каждый токен и работают с ограниченным контекстным окном, это разница между «обработаем за копейки» и «извините, не влезает». Грубо говоря, как если бы ваш мобильный интернет вдруг подешевел в пять раз — жизнь не перевернётся, но месячный счёт будет вызывать совсем другие эмоции.

Тем более что популярные кодинг-агенты — Claude Code, OpenCode и другие — уже отправляют эти заголовки. То есть спрос не нужно создавать — он уже есть, просто инфраструктура наконец подтянулась.

Параллельная вселенная: llms.txt и другие попытки «поговорить с роботами»

Справедливости ради, Cloudflare не первые, кто задумался о том, что AI-агентам нужен отдельный вход в интернет. Ещё в 2025 году появилась инициатива llms.txt — файл-«визитка» для ботов, который кладётся в корневую директорию сайта (по аналогии с robots.txt) и объясняет языковой модели: вот кто мы, вот что у нас есть, вот самые важные страницы.

Идея, в общем, симпатичная, и её подхватили несколько сотен сайтов — включая Cloudflare, Vercel и Coinbase. Но есть нюанс, и он существенный: ни один крупный AI-провайдер официально не подтвердил, что его краулеры читают и учитывают llms.txt. Джон Мюллер из Google в ответ на вопрос о перспективах формата лаконично ответил, что ни один AI-сервис не заявлял об использовании этих файлов. Независимые исследования это подтверждают: из 94 000 процитированных AI-системами URL-адресов менее процента имели llms.txt.

Получается любопытная ситуация: индустрия активно строит инфраструктуру для диалога с AI-агентами, но сами агенты пока не очень-то реагируют на эти знаки внимания. Как если бы вы поставили кормушку для птиц, повесили табличку «добро пожаловать» и развесили по саду указатели — а птицы всё равно клюют хлеб с тротуара.

Google недоволен (как обычно)

Но самое весёлое в этой истории — реакция Google. Джон Мюллер, чьё слово в SEO-мире весит примерно как энциклика папы римского, назвал идею подачи Markdown-страниц для ботов «глупой идеей» — прямо так, без обиняков. Его аргументы: языковые модели прекрасно обучены на HTML, они читают его с самого начала своего существования, зачем городить параллельную вселенную? И добавил с присущим ему сарказмом: «LLM умеют читать картинки — может, тогда вообще весь сайт превратим в одну большую картинку?»

Фабрис Канель из Bing поддержал коллегу, предупредив, что обслуживание двух версий контента — для людей и для ботов — может быть расценено как клоакинг, то есть манипуляция поисковой выдачей. А это, мягко говоря, очень плохо для SEO.

Но тут есть тонкость. Мюллер критиковал конкретную практику — когда владельцы сайтов создают отдельные Markdown-страницы и через middleware подсовывают их AI-ботам вместо HTML. Это действительно попахивает клоакингом, потому что по одному URL вы показываете разный контент разным посетителям. А вот то, что делает Cloudflare — это стандартное согласование контента через HTTP-заголовки, механизм, которым API пользуются десятилетиями (Accept: application/json vs Accept: text/xml — никто же не называет это клоакингом?). Контент тот же самый, меняется только формат представления.

И вот что мне кажется забавным: Google одной рукой ругает Markdown для ботов, а другой — строит AI-браузер, который сам будет ходить по сайтам и потреблять контент (я про это писал в «Google превращает Chrome в AI-браузер: теперь он сам будет ходить по сайтам за вас»). Получается, когда Google делает бота — это инновация, а когда сайты пытаются этому боту помочь — это «глупая идея»? Ладно, поехали дальше.

Теневой веб для ботов — реальная угроза или паранойя?

Но у этой истории есть и по-настоящему интересная тёмная сторона. SEO-консультант Дэвид Максуини обратил внимание на неочевидную деталь: Cloudflare передаёт заголовок Accept на сервер-источник, а значит, владелец сайта может понять, что запрос пришёл от AI-агента. И что мешает ему подсунуть боту специально подготовленный HTML — с другими ценами, с вшитыми инструкциями для модели или просто с откровенным враньём? Создаётся, по выражению Максуини, «теневой веб» для ботов.

Звучит как сценарий для сериала, но если задуматься — риск вполне реальный. Другой SEO-эксперт, Джоно Олдерсон, сформулировал проблему ещё точнее: когда вы создаёте машиночитаемую версию страницы, вы фактически создаёте вторую версию реальности. И не важно, что вы клянётесь, что контент идентичен — система видит два представления и вынуждена решать, какому из них доверять.

Хотя, давайте будем честны: у нас уже давно есть amp-страницы, RSS-фиды, Open Graph-разметка — и никто не называет это «теневым вебом». Вопрос ведь не в том, существует ли вторая версия контента, а в том, можно ли её использовать для обмана. А обманывать умельцы научились и без всякого Markdown — SEO-шники не дадут соврать.

Кому это нужно и зачем

Ладно, хватит про SEO-драмы — давайте посмотрим на картину шире. Мы, похоже, на пороге мира, где AI-агенты станут полноценными «посетителями» интернета наравне с людьми. Они уже заказывают товары, сравнивают цены, ищут информацию и составляют из неё выжимки. Если вы пользуетесь AI-поиском в ChatGPT или Perplexity, то ваш запрос прямо сейчас обрабатывает агент, который ходит по сайтам, читает их и собирает ответ — вы просто этого не замечаете.

Мы подробно разбирали эту тему в материале «Как работают AI-агенты: объяснение для тех, кому надоели непонятные термины» — и тогда, пару месяцев назад, это казалось чем-то далёким и экспериментальным. А сейчас Cloudflare перестраивает под них инфраструктуру. Laravel Cloud внедрил аналогичную функцию. Веб-фреймворки начинают поддерживать Markdown-отдачу «из коробки». Чувствуете, как быстро всё закрутилось?

Для владельцев сайтов это очередная головоломка. Сначала надо было оптимизироваться под Яндекс и Google, потом под мобильный поиск, потом под голосовых ассистентов. Теперь к списку «клиентов» добавляются AI-агенты, которым не нужны красивые картинки, зато нужен чистый, структурированный текст с минимумом шума.

И тут, кстати, возникает вопрос для нашего рынка. У нас нет аналога Cloudflare такого масштаба — а значит, российские сайты рискуют оказаться в менее выгодном положении, когда AI-агенты станут массовым источником трафика. Хотя, зная нашу способность быстро догонять (вспомним историю с Яндекс.Турбо-страницами), я бы не удивился, если что-то похожее появится у российских CDN-провайдеров уже к лету.

Мнение редакции

Знаете, что меня во всей этой истории цепляет сильнее всего? Не технология — она-то как раз элементарная. А то, как быстро мы дошли до точки, когда интернет нужно «переводить» для роботов. Мы наворотили столько слоёв абстракции поверх текста — фреймворки, бандлеры, CSS-in-JS, server-side rendering — что теперь нужен отдельный сервис, который всё это снимет и вернёт просто слова. Есть в этом что-то комичное.

Я не верю, что Markdown for Agents — финальная точка. Это скорее первый неуклюжий шаг. Через пару лет мы, вероятно, будем обсуждать не «нужно ли отдавать Markdown», а «какой протокол общения с агентами станет стандартом» — и это будет что-то существенно сложнее HTTP-заголовков. Возможно, что-то вроде API, через который агент сможет не просто читать контент, а взаимодействовать с сайтом — задавать вопросы, уточнять, фильтровать.

Что касается паники SEO-сообщества — ну, они паникуют при каждом обновлении алгоритмов, это у них такой вид спорта. А вот непоследовательность Google — это уже интересно. Одной рукой критикуют саму идею Markdown для ботов, другой — строят AI-браузер, который будет потреблять контент за пользователя. Но когда Google был последователен? Вот именно.

А если без шуток — владельцам сайтов сейчас стоит задуматься не столько про Cloudflare или llms.txt (это инструменты, они будут меняться), сколько про базовую «машиночитаемость» своего контента. Чистый HTML, внятная структура, минимум мусора. Это полезно вне зависимости от того, какой именно протокол победит. В конце концов, чистый код — он как хорошие манеры: пригодится и в общении с людьми, и с роботами.

Больше разборов про AI и технологии — на канале. Подпишись здесь или в Телеграме, чтобы не пропустить следующий материал.