А вы знали, что Джоан Роулинг написала детективный роман под мужским псевдонимом — и была разоблачена не журналистами и не инсайдерами, а алгоритмом, который проанализировал длину предложений и частоту запятых?
Разбираемся, как работает стилометрия — и почему анонимно писать значительно сложнее, чем кажется.
Что такое стилометрия
Стилометрия — статистический анализ текста для идентификации автора. Каждый человек пишет по-своему: выбирает определённые слова, строит предложения определённой длины, расставляет знаки препинания по своим паттернам, использует характерные обороты.
Эти особенности формируются годами и работают бессознательно. Человек может намеренно менять стиль — но через несколько абзацев возвращается к привычным паттернам. Это как походка: можно какое-то время идти иначе, но естественная манера возвращается сама.
Стилометрия измеряет именно эти бессознательные паттерны — и сравнивает их с известными текстами.
Как это работает технически
Что анализируют алгоритмы
Частота слов — какие слова автор использует чаще обычного, какие избегает. Не значимые слова вроде «расследование» или «криптовалюта» — а служебные: предлоги, союзы, частицы. Именно они наиболее стабильны и наименее контролируемы сознательно.
Длина предложений — средняя длина, разброс, паттерны чередования коротких и длинных предложений.
Пунктуация — как часто ставятся запятые, есть ли привычка к тире, многоточиям, скобкам.
Синтаксические структуры — как строятся предложения, где ставится сказуемое, как оформляются придаточные.
Характерные обороты и слова-паразиты — фразы, которые автор использует регулярно, часто не замечая этого.
Как строится профиль автора
Алгоритм анализирует большой массив текстов известного автора — статьи, посты, письма, любые тексты с подтверждённым авторством. Из этого массива извлекается стилистический профиль — математический вектор из сотен параметров.
Анонимный текст анализируется по тем же параметрам. Результат сравнивается с профилями известных авторов. Чем меньше расстояние между векторами — тем выше вероятность совпадения.
Для надёжного результата нужно достаточно текста — обычно от нескольких тысяч слов. Короткое сообщение идентифицировать сложнее, длинный текст — значительно проще.
Реальные случаи
Джоан Роулинг и Роберт Гэлбрейт
В 2013 году вышел детективный роман «Зов кукушки» — якобы дебютная работа никому не известного автора Роберта Гэлбрейта. Книга получила хорошие отзывы, но продавалась скромно.
Несколько месяцев спустя журналист Sunday Times отправил текст романа на стилометрический анализ — вместе с романами нескольких известных британских авторов, включая Джоан Роулинг. Алгоритм указал на Роулинг с высокой степенью уверенности.
После публикации разоблачения продажи книги выросли в сотни раз за один день.
Анонимная колонка в New York Times
В 2018 году New York Times опубликовал анонимную колонку якобы от высокопоставленного сотрудника администрации Трампа. Несколько исследователей немедленно применили стилометрический анализ — и сузили круг подозреваемых до нескольких человек. Личность автора была установлена официально только в 2020 году — анализ оказался точным.
Унабомбер
Теодор Качинский рассылал бомбы и публиковал анонимные манифесты на протяжении семнадцати лет. ФБР не могло его найти. Когда манифест был опубликован в прессе по требованию Качинского — его брат узнал характерные фразы и обороты из личной переписки. Это и стало ключом к идентификации.
Формально не стилометрия — но тот же принцип: уникальный стиль письма как идентификатор.
Исторические тексты
Стилометрия используется для установления авторства спорных литературных и исторических текстов. Часть пьес, приписываемых Шекспиру, исследовалась именно так. Анонимные политические памфлеты восемнадцатого века атрибутируются конкретным авторам через анализ стиля.
Применение в OSINT и расследованиях
Анонимные угрозы и письма
Если у следователя есть тексты подозреваемого — переписка, публикации, заявления — их сравнивают с анонимным письмом. Стилометрический анализ сужает круг подозреваемых или исключает конкретных людей.
Поиск инсайдера
Утечка внутреннего документа — и следствие знает, что документ писал кто-то из сотрудников. Стилометрический анализ документа в сравнении с рабочей перепиской сотрудников указывает на конкретного человека.
Анонимные публикации и блоги
Человек ведёт анонимный блог и одновременно публично публикуется под своим именем. Сравнение текстов позволяет установить связь между анонимным и публичным профилем.
Именно так деанонимизируют анонимных авторов в журналистских расследованиях и корпоративных спорах.
Верификация авторства в суде
Кто написал контракт, кто автор спорного email, кто создал документ — стилометрическая экспертиза принимается как доказательство в ряде юрисдикций.
Инструменты
JGAAP — github.com/evllabs/JGAAP. Java Graphical Authorship Attribution Program. Профессиональный инструмент для стилометрического анализа с открытым кодом. Используется исследователями и криминалистами.
Stylometry with R — пакет stylo для языка R. Стандартный инструмент в академической стилометрии. Строит визуальные карты близости текстов разных авторов.
Writeprints — академический инструмент анализа авторства. Извлекает сотни стилистических параметров из текста.
Who Wrote This? — онлайн-демонстрации стилометрии доступны через различные университетские проекты. Позволяют увидеть принцип работы без установки инструментов.
Как защититься — и почему это сложно
Почему изменить стиль труднее, чем кажется
Человек может намеренно писать проще или сложнее, использовать другие слова, строить предложения иначе. Но служебные слова — предлоги, союзы, частицы — используются автоматически и практически не поддаются сознательному контролю. Именно они дают наиболее надёжные результаты при анализе.
Попытка полностью изменить стиль требует такой концентрации, что текст становится неестественным — и это само по себе маркер.
Единственный надёжный способ
Использовать языковую модель для перефразирования текста — ИИ переписывает содержание своим стилем, полностью убирая авторские паттерны. Результат нужно отредактировать для естественности — но стилистический профиль автора при этом исчезает.
Писать на неродном языке — стилистические паттерны родного языка не переносятся в чужой автоматически. Но это радикально снижает качество текста.
Использовать соавтора — текст, написанный несколькими людьми, значительно сложнее атрибутировать одному автору.
Почерк есть у каждого
Стилометрия работает потому, что язык — это привычка. Годами сформированные паттерны проявляются в каждом тексте независимо от желания автора. Анонимность имени не означает анонимности стиля.
Понимать это важно — и тем, кто хочет сохранить анонимность, и тем, кто ищет анонимного автора.
Если вам нужно установить авторство текста или провести стилометрический анализ в рамках расследования — на нашем форуме работают специалисты, которые занимаются этим профессионально.
Задумывались о том, что ваш стиль письма уникален как отпечаток пальца — или впервые слышите о стилометрии? Пишите в комментарии — задавайте вопросы, предлагайте темы.