158 подписчиков

🎭 «JPEG-фальшивки»: как сбить с толку назойливых веб-краулеров, почти ничего не делая

12 июля12 июл

3 мин

Оглавление

📸 Что значит «фальшивый JPEG»?
⚙️ Техническая сторона реализации
🚀 Эффективность на грани фантастики

Спокойный пейзаж превращается в хаотичную мозаику пикселей и шестнадцатеричных знаков, а полупрозрачный «паук»-бот с лазерными сканерами изучает глитч-область — образ фальшивого JPEG, созданного для запутывания агрессивных краулеров.

Война между веб-мастерами и автоматизированными ботами идёт уже давно, но в последнее время она превратилась в настоящую «холодную войну» за ресурсы и производительность. В марте 2025 года автор проекта Spigot нашёл необычный, но изящный способ сделать жизнь вредоносных краулеров значительно сложнее, практически не расходуя собственные ресурсы. Оружием в этой борьбе стали… фальшивые JPEG-файлы.

📸 Что значит «фальшивый JPEG»?

Когда автор проекта столкнулся с ботом ImageSiftBot, настойчиво требующим изображений, он задумался: почему бы не дать боту то, что он хочет, но без затрат на реальные вычисления и компрессию? JPEG-файлы обычно требуют много ресурсов для генерации и компрессии, но автор проекта придумал интересный способ минимизировать эти расходы.

Идея состояла в том, чтобы создать шаблон JPEG-файла, в котором:

🧩 структурные компоненты (метаданные, размер, глубина цвета) остаются реальными,
🎲 пиксельные данные заменяются случайными байтами, создавая видимость сжатия.

При этом данные не проходят настоящую компрессию, а просто генерируются из случайного шума. В результате файл выглядит как настоящий JPEG, хотя на деле представляет собой лишь цифровую имитацию изображения.

⚙️ Техническая сторона реализации

Автор подробно описывает процесс:

📂 Сбор реальных JPEG-шаблонов: он проанализировал 514 изображений со своего сайта, извлекая из них структурные части (заголовки, маркеры, размеры) и сохранил это в отдельный шаблон. Размер всей коллекции шаблонов оказался меньше 500 килобайт.
🔀 Случайная генерация данных: вместо настоящих данных, требующих сложного кодирования Хаффмана, пиксельные блоки заполняются случайными байтами.
⚠️ Ошибки декодирования: изначально это приводило к ошибкам декодирования. Однако большинство популярных программ просмотра изображений всё равно корректно выводят такие картинки, несмотря на ошибки.
🎭 Оптимизация методом маскирования: позднее автор применил битовую маску (0x6D) к случайным данным, резко сократив вероятность появления критических ошибок декодирования с 90% до менее 4%. Это почти ничего не стоит по ресурсам, но значительно усложняет задачу выявления подделок ботами.

🚀 Эффективность на грани фантастики

Самое интересное — это производительность такого подхода. Тесты показали впечатляющий результат:

🏎️ 900 JPEG-файлов в секунду может генерировать сервер автора, что примерно равно 190 мегабайтам в секунду. Это быстрее, чем позволяет интернет-канал большинства серверов.

В итоге, проект Spigot начал массово внедрять такие JPEG-фальшивки на 60% своих страниц, моментально привлекая внимание ImageSiftBot и других крупных ботов (Meta, AmazonBot, GPTBot). Чем активнее эти боты пытаются сканировать изображения, тем больше бессмысленных данных они получают, тратя свои вычислительные ресурсы впустую.

🎯 Почему это важно?

Автор подчёркивает, что главная цель — заставить вредоносных краулеров тратить как можно больше ресурсов, не нанося при этом ущерба производительности собственного сервера. Такой подход можно назвать цифровой «асимметричной войной», где небольшими усилиями создаются огромные проблемы для агрессивных систем сбора данных.

На мой взгляд, этот метод по-настоящему гениален своей простотой и элегантностью. В то время, когда сайты всё чаще страдают от перегрузок, вызванных ботами, автор смог эффективно перевернуть ситуацию в свою пользу, заставив «паразитов» платить огромные вычислительные издержки за свою активность.

🔮 Будущее подхода и мои мысли

Метод «фальшивых JPEG» интересен не только практическим применением, но и своей философией. Автор доказал, что даже небольшая оптимизация и знание внутренней структуры форматов данных позволяют эффективно бороться с вредоносными краулерами, не прибегая к сложным и дорогим защитным мерам.

В будущем, думаю, мы увидим ещё больше подобных хитростей и техник, направленных на защиту ресурсов в сети. И вполне возможно, что крупные компании, разрабатывающие ботов, будут вынуждены адаптироваться к таким изящным уловкам.

📌 Итог: умный подход к защите от паразитов

JPEG-фальшивки — это пример, когда ум и знание побеждают грубую вычислительную силу. В цифровой среде, где «ресурс противника» всегда ограничен, такие методы могут стать главным оружием в арсенале веб-мастеров, сталкивающихся с агрессивными и назойливыми ботами.

И возможно, в ближайшем будущем такие подходы перестанут быть экзотикой и станут общепринятой практикой, заставляя создателей ботов задуматься: «А стоит ли овчинка выделки?»

🔗 Оригинальная новость и описание метода: Faking a JPEG
🔗 Исходный код метода на GitHub: Fake JPEG Generator