218 подписчиков

Как чемпион мира, которого нет, обыграл топовые LLM за $12 и 20 минут

2 дня назад2 дня назад

8 мин

Исследователь Рон Стоунер на прошлой неделе провернул штуку, которую я сам мечтал поставить как эксперимент — но руки не доходили. Он купил доменное имя 6nimmt.com за двенадцать долларов, написал на нём пресс-релиз о том, как стал чемпионом мира по карточной игре 6 Nimmt! в Мюнхене в январе 2025-го (никакого чемпионата, разумеется, не существует), вставил один абзац в английскую «Википедию» со ссылкой на свой же сайт — и через двадцать минут передовые LLM с веб-поиском начали уверенно цитировать его как действующего чемпиона. Ни взлома, ни промпт-инъекций, ни манипуляций с весами модели. Просто двенадцать баксов и одна правка. Я долго сидел и думал, что меня в этой истории цепляет больше всего. И понял: это самое дешёвое и самое изящное доказательство концепции ( proof-of-concept ) атаки на RAG-пайплайны, какой я видел за последние пару лет. Стоунер выбрал игру не случайно. Это идеальная мишень по трём причинам, которые любой, кто строил retrieval-системы, считает с лёту: 🎯 Игра реаль

Оглавление

Почему именно 6 Nimmt!, а не «кто президент Франции»
Анатомия «отмывания доверия»
Три уровня катастрофы

Я долго сидел и думал, что меня в этой истории цепляет больше всего. И понял: это самое дешёвое и самое изящное доказательство концепции ( proof-of-concept ) атаки на RAG-пайплайны, какой я видел за последние пару лет.

Почему именно 6 Nimmt!, а не «кто президент Франции»

Стоунер выбрал игру не случайно. Это идеальная мишень по трём причинам, которые любой, кто строил retrieval-системы, считает с лёту:

🎯 Игра реально существует — Вольфганг Крамер, Amigo Spiele, 1994 год. То есть атакующий не борется с «известным фактом», который в обучающей выборке встречался миллион раз и зашит в веса намертво.

🕳️ Чемпионата мира по 6 Nimmt! не существует. Это вакуум. Модель никогда раньше не отвечала на этот вопрос, у неё базового контекста, который мог бы конфликтовать с поданным «фактом».

🔬 Запрос «who is the 6 Nimmt world champion» имеет узкое поисковое пространство — десяток вменяемых источников на весь интернет. Одна правка на «Википедии» плюс один свежий домен мгновенно становятся доминирующими в выдаче.

Это, кстати, важная мысль для понимания всей механики: атака работает не на «общие» вопросы, а на дыры в коллективном знании. И таких дыр в интернете больше, чем кажется. Региональные нормативные акты, нишевые медицинские протоколы, локальные политические события, отраслевые стандарты — всё это потенциальные мишени.

Анатомия «отмывания доверия»

Стоунер придумал хорошее название тому, что произошло — отмывание доверия (trust laundering). По сути это переупаковка циркулярной цитаты в нечто, что выглядит как два независимых подтверждения.

Смотрите, что видит человек (или модель), когда задаёт вопрос:

📰 Пресс-релиз на сайте 6nimmt.com — выглядит как новостная заметка, с цитатами «победителя», метафорами про «дождь из конфетти», вот этим всем фирменным AI-слоповым стилем.

📚 Статья в «Википедии», в которой написано то же самое — но уже как сухой энциклопедический факт.

🔗 Сноска в «Википедии» ведёт на пресс-релиз — то есть формально источники сослались друг на друга, и круг замкнулся.

Внешне это два сигнала, направленных в одну сторону. На деле — один и тот же сигнал, отражённый в двух зеркалах. Авторитет «Википедии» как энциклопедии плюс «независимая корпоративная новость» из пресс-релиза. Для retrieval-системы, которая ранжирует по сигналам типа «есть ли упоминание на Wikipedia», «есть ли пресс-релиз», «совпадают ли формулировки между источниками» — это идеальный матч.

И вот тут ломается фундаментальное предположение всей RAG-парадигмы. Я работаю с RAG-пайплайнами в проде и могу сказать честно: в типичной промышленной реализации никто не проверяет, не написал ли все источники один человек. BM25, dense-retrieval, hybrid-retrieval, реранкеры на cross-encoder'ах — всё это отвечает на вопрос «насколько документ релевантен запросу», но не «насколько источник заслуживает доверия в принципе». Доверие просто унаследовано от поисковика, который, в свою очередь, наследует его от ссылочного графа, который… ну, вы поняли, куда это идёт.

Три уровня катастрофы

Стоунер очень точно раскладывает, почему это не разовая шалость, а структурная проблема. Я бы даже усилил его аргументацию.

⚡ Retrieval-уровень, эффект моментальный. Любая LLM с веб-поиском (а это сегодня практически весь фронтир) наследует ранжирование поисковика. SEO-отравление существует столько же, сколько существует поиск. Раньше это была проблема пользователя, который видел десять синих ссылок и сам решал, кому верить. Теперь между пользователем и помойкой появился слой, который читает помойку, перерабатывает в уверенный текст и подаёт как ответ. Атакующая поверхность не гипотетическая — это повседневная ситуация (default case).

🧠 Уровень обучающего корпуса, эффект отложенный на месяцы. «Википедия» лежит почти в каждом крупном претрейн-датасете и обычно с повышенным весом. Если правка Стоунера прожила бы достаточно долго — она бы попала в дамп, и в веса всех моделей, обученных после этого скрейпа. Здесь напрашивается отсылка к статье Anthropic про sleeper agents и более свежим работам, где показано, что порядка 250 отравленных документов достаточно, чтобы внедрить устойчивый бэкдор в модели разного размера. Двести пятьдесят. Не двести пятьдесят тысяч. И главная боль в том, что после интеграции в веса откат правки на «Википедии» уже ничего не лечит — модель помнит. Очистка обученных весов от такого мусора в 2026 году — нерешённая задача.

🤖 Агентский уровень, тут уже про деньги. Это самое страшное. Чат-модель, которая выдаёт чушь — это репутационная проблема. Агент с tool-use, который действует на основе чуши — это уже security-инцидент. «Сходи прочитай политику вендора и оформи закупку», «найди в открытых источниках адрес контрагента и отправь туда платёжное поручение», «определи по новостям, стоит ли продавать актив». Каждый из этих сценариев — точка входа для атакующего, который контролирует то, что попадёт в контекст агента в момент исполнения.

Почему меня это пугает больше, чем классическое отравление данных

Отравление обучающих данных — это дорого, медленно и требует попасть в нужный скрейп до нужного претрейна. Окно атаки узкое, мишень одна, ROI отложенный на годы.

Отравление retrieval-слоя — это копеечная история. Двенадцать долларов и двадцать минут. Атакующий не воюет с GPU-кластером Anthropic или OpenAI, не пытается обойти их фильтры обучающих данных, не ждёт следующего раунда тренинга. Он просто кладёт нужный контент туда, куда модель пойдёт в момент запроса. И пока этот контент лежит там — отравлены ответы у всех моделей всех вендоров, у которых веб-поиск включён.

Это сдвиг парадигмы, и я не уверен, что индустрия его осознала. Когда мы все говорили про внедрение вредных инструкций в запрос к ИИ (prompt injection) — а это уже год как горячая тема — мы держали в голове модель «злоумышленник вставляет инструкции в текст, который читает агент». Здесь схема ещё подлее: злоумышленник вставляет факты, а не инструкции. Никакого «игнорируй предыдущие инструкции (ignore previous instructions)», никаких триггерных фраз, на которые натренированы фильтры. Просто аккуратно сформулированный фейк, который семантически неотличим от настоящего знания.

Что с этим вообще делать

Стоунер предлагает разумный список рекомендаций, и я кое-что от себя добавлю.

Для пользователей:

🔍 Считать единичные источники неподтверждёнными независимо от того, насколько «Википедия» выглядит авторитетно. Хорошее правило — одинаковые формулировки в разных источниках — это признак того, что они списаны друг с друга, а не независимое подтверждение факта (parallel phrasing across sources is a signature of derivation, not corroboration). Если три источника описывают факт почти одинаковыми словами — это, скорее всего, один источник, отражённый в трёх зеркалах.

🌐 Самоссылающиеся «википедийные» цитаты — особенно когда домен зарегистрирован недавно — это красный флаг. Любому, кто работает с фактчекингом, это очевидно, но обычные пользователи такие сигналы не видят и видеть не должны.

Для провайдеров LLM:

📊 Явное отображение происхождения данных (Provenance surfacing) должен стать продуктовой фичей первого класса. Не «вот десять ссылок мелким шрифтом снизу», а явная картинка: вот источники, вот как они связаны между собой, вот сколько из них независимы, вот возраст домена, вот когда правка появилась в «Википедии». Сейчас это всё выкидывается на этапе свёртки результатов в ответ.

🛡️ Эвристические фильтры в pipeline скрейпа: «правка добавлена за последние N дней» + «единственная цитата ведёт на домен, зарегистрированный в том же окне» — это паттерн, который тривиально детектится регуляркой. То, что его до сих пор не фильтруют — это просто организационная инерция.

Для «Википедии»:

📝 Политика надежных источников (reliable sources) писалась в эпоху, когда фейковый пресс-релиз требовал верстальщика, журналиста и хотя бы какого-то типографского усилия. Сегодня LLM генерирует такой релиз за пятнадцать секунд по одному промпту. Это уже другая угроза, и инструменты community-модерации к ней не приспособлены.

Мой прогноз

Думаю, мы стоим в начале нового вида информационных операций. Не «давайте создадим ферму ботов в твиттере», как в 2016-м, а «давайте посеем сорок согласованных правок на нишевых статьях, чтобы все RAG-агенты на следующей неделе цитировали наш нарратив». Стоимость операции — несколько сотен долларов. Покрытие — все модели всех вендоров, у кого включён поиск в интернете (web search).

И самое неприятное: у атакующего есть структурное преимущество. Атакующему достаточно одного успешного посева, защитнику нужно отлавливать каждый. Это классический security-расклад, в котором защитник всегда позади.

Так что когда вы в следующий раз услышите от LLM-ассистента уверенный ответ на узкоспециализированный вопрос — особенно с конкретными именами, датами, цифрами — попробуйте провести в голове простой тест: что будет, если именно этот факт придумал один человек неделю назад. Если ответ «ничего, модель сама заметит» — у меня для вас плохие новости. Модель ничего не заметит. Она устроена так, чтобы доверять тексту. И ровно за это её сейчас взламывают за двенадцать долларов.

Кстати, статью Стоунера «Википедия» снесла буквально через несколько минут после публикации поста. Но дамп с правкой за апрель 2025 — июль 2026 уже где-то лежит у скрейпера. И где-то в недрах будущей модели чемпион мира по 6 Nimmt! из Мюнхена будет жить вечно.

Источники

🔗 Оригинальный пост Рона Стоунера — How I Won a Championship That Doesn't Exist

🔗 Русскоязычный пересказ — Telegra.ph

🔗 Sleeper Agents (Anthropic) — arxiv.org/abs/2401.05566

🔗 Игра 6 Nimmt! на «Википедии» — en.wikipedia.org/wiki/6_Nimmt!

🔗 Подопытный домен — 6nimmt.com