Добавить в корзинуПозвонить
Найти в Дзене
Dark Raven

Стилометрия — как вычисляют анонимного автора по манере письма

А вы знали, что Джоан Роулинг написала детективный роман под мужским псевдонимом — и была разоблачена не журналистами и не инсайдерами, а алгоритмом, который проанализировал длину предложений и частоту запятых? Разбираемся, как работает стилометрия — и почему анонимно писать значительно сложнее, чем кажется. Стилометрия — статистический анализ текста для идентификации автора. Каждый человек пишет по-своему: выбирает определённые слова, строит предложения определённой длины, расставляет знаки препинания по своим паттернам, использует характерные обороты. Эти особенности формируются годами и работают бессознательно. Человек может намеренно менять стиль — но через несколько абзацев возвращается к привычным паттернам. Это как походка: можно какое-то время идти иначе, но естественная манера возвращается сама. Стилометрия измеряет именно эти бессознательные паттерны — и сравнивает их с известными текстами. Частота слов — какие слова автор использует чаще обычного, какие избегает. Не значимые
Оглавление

А вы знали, что Джоан Роулинг написала детективный роман под мужским псевдонимом — и была разоблачена не журналистами и не инсайдерами, а алгоритмом, который проанализировал длину предложений и частоту запятых?

Разбираемся, как работает стилометрия — и почему анонимно писать значительно сложнее, чем кажется.

Что такое стилометрия

Стилометрия — статистический анализ текста для идентификации автора. Каждый человек пишет по-своему: выбирает определённые слова, строит предложения определённой длины, расставляет знаки препинания по своим паттернам, использует характерные обороты.

Эти особенности формируются годами и работают бессознательно. Человек может намеренно менять стиль — но через несколько абзацев возвращается к привычным паттернам. Это как походка: можно какое-то время идти иначе, но естественная манера возвращается сама.

Стилометрия измеряет именно эти бессознательные паттерны — и сравнивает их с известными текстами.

Как это работает технически

Что анализируют алгоритмы

Частота слов — какие слова автор использует чаще обычного, какие избегает. Не значимые слова вроде «расследование» или «криптовалюта» — а служебные: предлоги, союзы, частицы. Именно они наиболее стабильны и наименее контролируемы сознательно.

Длина предложений — средняя длина, разброс, паттерны чередования коротких и длинных предложений.

Пунктуация — как часто ставятся запятые, есть ли привычка к тире, многоточиям, скобкам.

Синтаксические структуры — как строятся предложения, где ставится сказуемое, как оформляются придаточные.

Характерные обороты и слова-паразиты — фразы, которые автор использует регулярно, часто не замечая этого.

Как строится профиль автора

Алгоритм анализирует большой массив текстов известного автора — статьи, посты, письма, любые тексты с подтверждённым авторством. Из этого массива извлекается стилистический профиль — математический вектор из сотен параметров.

Анонимный текст анализируется по тем же параметрам. Результат сравнивается с профилями известных авторов. Чем меньше расстояние между векторами — тем выше вероятность совпадения.

Для надёжного результата нужно достаточно текста — обычно от нескольких тысяч слов. Короткое сообщение идентифицировать сложнее, длинный текст — значительно проще.

Реальные случаи

Джоан Роулинг и Роберт Гэлбрейт

В 2013 году вышел детективный роман «Зов кукушки» — якобы дебютная работа никому не известного автора Роберта Гэлбрейта. Книга получила хорошие отзывы, но продавалась скромно.

Несколько месяцев спустя журналист Sunday Times отправил текст романа на стилометрический анализ — вместе с романами нескольких известных британских авторов, включая Джоан Роулинг. Алгоритм указал на Роулинг с высокой степенью уверенности.

После публикации разоблачения продажи книги выросли в сотни раз за один день.

Анонимная колонка в New York Times

В 2018 году New York Times опубликовал анонимную колонку якобы от высокопоставленного сотрудника администрации Трампа. Несколько исследователей немедленно применили стилометрический анализ — и сузили круг подозреваемых до нескольких человек. Личность автора была установлена официально только в 2020 году — анализ оказался точным.

Унабомбер

Теодор Качинский рассылал бомбы и публиковал анонимные манифесты на протяжении семнадцати лет. ФБР не могло его найти. Когда манифест был опубликован в прессе по требованию Качинского — его брат узнал характерные фразы и обороты из личной переписки. Это и стало ключом к идентификации.

Формально не стилометрия — но тот же принцип: уникальный стиль письма как идентификатор.

Исторические тексты

Стилометрия используется для установления авторства спорных литературных и исторических текстов. Часть пьес, приписываемых Шекспиру, исследовалась именно так. Анонимные политические памфлеты восемнадцатого века атрибутируются конкретным авторам через анализ стиля.

Применение в OSINT и расследованиях

Анонимные угрозы и письма

Если у следователя есть тексты подозреваемого — переписка, публикации, заявления — их сравнивают с анонимным письмом. Стилометрический анализ сужает круг подозреваемых или исключает конкретных людей.

Поиск инсайдера

Утечка внутреннего документа — и следствие знает, что документ писал кто-то из сотрудников. Стилометрический анализ документа в сравнении с рабочей перепиской сотрудников указывает на конкретного человека.

Анонимные публикации и блоги

Человек ведёт анонимный блог и одновременно публично публикуется под своим именем. Сравнение текстов позволяет установить связь между анонимным и публичным профилем.

Именно так деанонимизируют анонимных авторов в журналистских расследованиях и корпоративных спорах.

Верификация авторства в суде

Кто написал контракт, кто автор спорного email, кто создал документ — стилометрическая экспертиза принимается как доказательство в ряде юрисдикций.

Инструменты

JGAAP — github.com/evllabs/JGAAP. Java Graphical Authorship Attribution Program. Профессиональный инструмент для стилометрического анализа с открытым кодом. Используется исследователями и криминалистами.

Stylometry with R — пакет stylo для языка R. Стандартный инструмент в академической стилометрии. Строит визуальные карты близости текстов разных авторов.

Writeprints — академический инструмент анализа авторства. Извлекает сотни стилистических параметров из текста.

Who Wrote This? — онлайн-демонстрации стилометрии доступны через различные университетские проекты. Позволяют увидеть принцип работы без установки инструментов.

Как защититься — и почему это сложно

Почему изменить стиль труднее, чем кажется

Человек может намеренно писать проще или сложнее, использовать другие слова, строить предложения иначе. Но служебные слова — предлоги, союзы, частицы — используются автоматически и практически не поддаются сознательному контролю. Именно они дают наиболее надёжные результаты при анализе.

Попытка полностью изменить стиль требует такой концентрации, что текст становится неестественным — и это само по себе маркер.

Единственный надёжный способ

Использовать языковую модель для перефразирования текста — ИИ переписывает содержание своим стилем, полностью убирая авторские паттерны. Результат нужно отредактировать для естественности — но стилистический профиль автора при этом исчезает.

Писать на неродном языке — стилистические паттерны родного языка не переносятся в чужой автоматически. Но это радикально снижает качество текста.

Использовать соавтора — текст, написанный несколькими людьми, значительно сложнее атрибутировать одному автору.

Почерк есть у каждого

Стилометрия работает потому, что язык — это привычка. Годами сформированные паттерны проявляются в каждом тексте независимо от желания автора. Анонимность имени не означает анонимности стиля.

Понимать это важно — и тем, кто хочет сохранить анонимность, и тем, кто ищет анонимного автора.

Если вам нужно установить авторство текста или провести стилометрический анализ в рамках расследования — на нашем форуме работают специалисты, которые занимаются этим профессионально.

Задумывались о том, что ваш стиль письма уникален как отпечаток пальца — или впервые слышите о стилометрии? Пишите в комментарии — задавайте вопросы, предлагайте темы.