Буквально несколько лет назад текст, написанный нейронкой вычислить было очень легко: это можно было понять по типичным для нее вводным фразам и, мягко сказать, слегка странным формулировкам. Но время идёт и сегодня ChatGPT и его аналоги пишут так, что даже опытный редактор не сразу поймет, кто автор текста: человек или алгоритм, особенно если ему задать качественный промпт.
Учёные из Сколтеха (МФТИ, институт AIRI) и ряда других центров решили этот вопрос: они научились определять машинный текст, а также выявили признаки ИИ в текстах.
Как работает новый метод?
Большинство детекторов ИИ, которые определяют, сгенерирован ли текст искусственным интеллектом, работают не совсем прозрачно и понятно. После загрузки текста детектор обрабатывает информацию и выдаёт итоговое решение, где указывает в процентах вероятность происхождения текста, но не объясняет, на основании каких признаков он пришел к этому выводу. Поэтому если алгоритм ошибается, то понять, почему именно он принял такое решение невозможно.
Исследователи же решили изменить этот подход и создать инструмент, который определяет происхождение текста, а также показывает, какие конкретные характеристики текста стали основанием для такого вывода. Это делает систему более прозрачной и позволяет человеку проверить логику работы алгоритма, снизив риск необоснованных обвинений в использовании ИИ. Для анализа они использовали технику разрежённых автокодировщиков (Sparse Autoencoders, SAE). Представьте себе коктейль из тысячи перемешанных сигналов: SAE аккуратно разбирает его на атомарные компоненты, каждый из которых отвечает за определённую характеристику текста: сложность предложений, стиль, использование специфической лексики.
По словам Лаиды Кушнаревой (старший академический консультант Huawei), люди, которые часто читают тексты ChatGPT, уже знают типичные «машинные» признаки: сухой формальный стиль, длинные и несодержательные вступления, частые повторения одной и той же мысли. Но существующие детекторы не могут показать, насколько сильно эти признаки выражены.
Новый метод делает это иначе: он досконально раскладывает текст и превращает характеристики в понятные цифры. Например, признак №3608 отвечает за синтаксическую сложность: если его усилить, текст становится чрезмерно закрученным, а если ослабить, то получается очень примитивным, трудно воспринимается и режет глаз своим слогом. Среди них также есть признак №4645 (определяет уверенность текста), а признак №6587, который вычисляет многословные вступления без особой смысловой нагрузки.
Можно ли обмануть такую систему?
Исследователи проверяли, что будет, если специально «маскировать» текст: добавлять странные символы, лишние пробелы или артикли. Но SAE всё равно справляется: он видит эти скрытые паттерны.
Учёные не остановились на этом и пошли дальше: они попробовали управлять тем, как нейросеть пишет текст. Для этого они усиливали или, наоборот, ослабляли отдельные признаки внутри модели (академичность, формальность текста, длина вступлений) и другие характеристики.
Например, когда они усиливали признак, связанный с научностью текста, модель начинала писать сложными словами, длинными фразами и использовать более официальный стиль. А когда этот же признак ослабляли, стиль становился проще: фразы становились короче, использовалась разговорная лексика.
Таким образом учёные показали, что нейросеть действительно чувствительна к этим параметрам, и их можно настраивать, влияя на результат. Это ещё раз подтверждает, что текст, созданный ИИ, можно разобрать по признакам и изменять под нужные задачи.
Зачем всё это нужно?
Мы живём в мире, где тексты, созданные нейросетями, уже стали обыденностью. Их публикуют в блогах, вставляют в курсовые, используют в журналистике и даже в научных работах. И чем правдоподобнее они становятся, тем важнее уметь отличать, где пишет живой человек, а где алгоритм.
Инструменты, которые разрабатывают сейчас, позволяют определить происхождение текста, а также объяснить, какие именно признаки на это указывают. Это значит, что решения алгоритма можно проверить, обосновать и при необходимости оспорить. Для таких сфер как образование, наука, журналистика, юриспруденция это критически важно. А в будущем такие подходы станут основой регулирования всего ИИ-контента.
И пусть нейросети учатся писать всё лучше, умение видеть разницу между живым мышлением и сгенерированным текстом будет только набирать ценность. Потому что в мире, где почти всё можно сымитировать, настоящие человеческие смыслы становятся самым редким и нужным ресурсом.