Найти в Дзене
DigEd

Исследователи удивлены тем, что с помощью ИИ токсичность сложнее подделать, чем интеллект

Оглавление
Картинка: RichVintage через Getty Images
Картинка: RichVintage через Getty Images

Автор Бендж Эдвардс

Новый «вычислительный тест Тьюринга» по сообщениям выявляет ИИ, притворяющийся человеком, с точностью 80%.

В следующий раз, когда вы столкнетесь с необычно вежливым ответом в социальных сетях, возможно, стоит проверить его дважды. Это может быть модель ИИ, пытающаяся (и неспособная) вписаться в толпу.

В среду исследователи из Цюрихского университета, Амстердамского университета, Университета Дьюка и Нью-Йоркского университета опубликовали исследование, в котором показано, что модели ИИ по-прежнему легко отличить от людей в разговорах в социальных сетях, причем наиболее устойчивым признаком является чрезмерно дружественный эмоциональный тон. В ходе исследования, в котором были протестированы девять моделей с открытым весом в Twitter/X, Bluesky и Reddit, было обнаружено, что классификаторы, разработанные исследователями, обнаруживали ответы, сгенерированные ИИ, с точностью от 70 до 80 процентов.

В исследовании представлен так называемый «вычислительный тест Тьюринга», который позволяет оценить, насколько модели ИИ приближаются к человеческому языку. Вместо того, чтобы полагаться на субъективное человеческое суждение о том, звучит ли текст аутентично, в рамках этой структуры используются автоматические классификаторы и лингвистический анализ для выявления конкретных особенностей, которые отличают контент, сгенерированный машиной, от контента, созданного человеком.

«Даже после калибровки результаты LLM остаются четко отличимыми от человеческого текста, особенно в эмоциональном тоне и выражении эмоций», — пишут исследователи. Команда под руководством Николо Пагана из Цюрихского университета протестировала различные стратегии оптимизации, от простых подсказок до тонкой настройки, но обнаружила, что более глубокие эмоциональные сигналы остаются надежными признаками того, что конкретное текстовое взаимодействие в Интернете было создано чат-ботом ИИ, а не человеком.

Токсичность говорит

В ходе исследования ученые протестировали девять крупных языковых моделей: Llama 3.1 8B, Llama 3.1 8B Instruct, Llama 3.1 70B, Mistral 7B v0.1, Mistral 7B Instruct v0.2, Qwen 2.5 7B Instruct, Gemma 3 4B Instruct, DeepSeek-R1-Distill-Llama-8B и Apertus-8B-2509.

Когда ИИ-моделям было предложено сгенерировать ответы на реальные посты в социальных сетях от реальных пользователей, они с трудом смогли достичь уровня непринужденной негативности и спонтанного эмоционального выражения, характерного для постов людей в социальных сетях, при этом показатели токсичности были стабильно ниже, чем у подлинных ответов людей на всех трех платформах.

Чтобы устранить этот недостаток, исследователи попробовали стратегии оптимизации (включая предоставление примеров написания и извлечение контекста), которые уменьшили структурные различия, такие как длина предложений или количество слов, но различия в эмоциональном тоне сохранились. «Наши комплексные калибровочные тесты ставят под сомнение предположение, что более сложная оптимизация обязательно приводит к более человекоподобному результату», — заключили исследователи.

Исследование также выявило неожиданный результат: модели, настроенные на инструкции, которые проходят дополнительное обучение, чтобы следовать инструкциям пользователей и вести себя полезно, на самом деле хуже имитируют людей, чем их базовые аналоги. Модели, такие как Llama 3.1 8B и Mistral 7B v0.1, достигли лучшего имитирования человеческого поведения без настройки инструкций, обеспечивая точность классификации от 75 до 85 процентов.

Еще более удивительным было то, что увеличение размера модели не давало никаких преимуществ. Модель Llama 3.1 с 70 миллиардами параметров работала на уровне или ниже моделей с меньшим количеством параметров (8 миллиардов), опровергая предположение о том, что более крупные модели могут обеспечивать более аутентичное звучание коммуникации.

Рисунок 1 из статьи «Вычислительный тест Тьюринга». Источник: Pagan et al.
Рисунок 1 из статьи «Вычислительный тест Тьюринга». Источник: Pagan et al.

Исследователи обнаружили фундаментальное противоречие: когда модели ИИ настраивались на избегание обнаружения путем подражания стилю письма человека, они все больше отклонялись от того, что люди на самом деле отвечали на те же посты (их показатели семантического сходства с реальными ответами людей снизились с медианных значений около 0,18–0,34 до 0,16–0,28 на всех платформах). И наоборот, когда текст ИИ был оптимизирован для соответствия содержанию человеческих ответов, его стало легче идентифицировать как искусственный.

В исследовании простые методы оптимизации для снижения обнаруживаемости превосходили сложные. Предоставление реальных примеров прошлых постов пользователя или извлечение соответствующего контекста постоянно затрудняли отличие текста ИИ от человеческого письма, в то время как сложные подходы, такие как предоставление ИИ описания личности пользователя и точная настройка модели, оказывали незначительное или отрицательное влияние на реалистичность.

Источник: mokee81 via Getty Images
Источник: mokee81 via Getty Images

Различия между платформами проявились и в том, насколько хорошо ИИ мог имитировать пользователей. Классификаторы исследователей обнаруживали ответы в Twitter/X, сгенерированные ИИ, с наименьшей точностью (что означает лучшую имитацию), за ними следовал Bluesky, а Reddit оказался самым легким для отличия от текста, написанного человеком. Исследователи предполагают, что эта закономерность отражает как отличительные стили общения на каждой платформе, так и то, насколько сильно данные каждой платформы были представлены в исходном обучении моделей.

Эти результаты, которые еще не прошли экспертную оценку, могут иметь значение как для развития ИИ, так и для аутентичности социальных сетей. Несмотря на различные стратегии оптимизации, исследование показывает, что текущие модели сталкиваются с постоянными ограничениями в улавливании спонтанных эмоциональных выражений, а показатели обнаружения остаются значительно выше уровня случайности. Авторы приходят к выводу, что стилистическое сходство с человеком и семантическая точность представляют собой «конкурирующие, а не согласованные цели» в текущих архитектурах, что свидетельствует о том, что текст, сгенерированный ИИ, остается явно искусственным, несмотря на попытки его гуманизации.

В то время как исследователи продолжают пытаться сделать модели ИИ более человеческими, реальные люди в социальных сетях продолжают доказывать, что аутентичность часто означает беспорядок, противоречивость и иногда неприятность. Это не означает, что модель ИИ не может потенциально имитировать такой результат, а только то, что это гораздо сложнее, чем ожидали исследователи.

Источник