Найти тему

Как распознать текст, написанный нейросетью

В канале телеграм писала о том, как распознать текст, написанный нейросетью (мы там сейчас активно обсуждаем ChatGPT, его использование как переводчика и преподавателя английского, так что если интересно – welcome).

Решила поделиться и с остальным миром)

Для примера взяла текст, написанный нейросетью «Порфирьевич». О происхождении этого текста я узнала позже, а задание было – определить, какой текст написан человеком, а какой нейросетью. Я с этим заданием справилась, текст ИИ нашла. И расскажу сейчас, по каким признакам я это определила.

Надо сказать, что одного лингвистического образования для того, чтобы распознать сгенерированный текст, мало. В конкретно этом случае мне помогло то, что я коренной житель Питера. Но то, о чем я скажу в этой связи, легко гуглится. Вы поймете, что я имею в виду.

Теперь по порядку.

1. Отмечено желтым: удивительно банальная общая фраза. Это отличает тексты нейросетей: общие слова ни о чем. Реальные люди, когда пишут «общие слова ни о чем», все же используют более сложную лексику и конструкции.

2. Отмечено зеленым: в этом примере показательно это использование 2 раза слова «наши». Дело не в двух разах и даже не в том, что «наши» не согласовываются с «людям». А в том, что носитель русского языка на месте этих «наши» ничего бы не сказал (написал бы «во всех областях жизни»), а английский язык, как вы помните, постоянно требует притяжательных местоимений, что так смешит школьников: I am doing my homework, а чью же еще, не чужую. Англоговорящие же постоянно их используют: My mom told me, My leg aches, give me your pen и т.д. Поэтому избыточность и неуместность притяжательных местоимений (вероятно потому, что для обучения ИИ используется большой корпус англоязычных текстов и гораздо меньшие других языков) выдает нейросеть.

3. Отмечено голубым: нейросеть очень любит антонимы. Смотрите, выше в тексте: «сделать нашу жизнь более яркой и веселой», а дальше антитеза «жизнь становится серой и пресной». Яркой – серой, веселой – пресной. Прямо и в лоб, с повторением конструкции и частей речи. Очень характерно для ИИ.

4. Отмечено пурпурным. Это смысловые ошибки. Я забыла упомянуть, что этот текст мне попался в начале декабря – это важно. И когда я увидела эту фразу – про день рождения Петра Первого, я впала в недоумение – мало того, что я всю жизнь живу в Ленинграде-Питере, а про такой праздник не слыхивала, так я, к стыду своему, даже не знаю, когда у Петра день рождения. Годы жизни помню, а день рождения – нет. День Города - да, празднуем. Но откуда это взял ИИ? Пришлось провести небольшое расследование и узнать, что именно этим летом в городе были разные мероприятия, посвященные 350-летию со дня рождения Петра: выставки, конференции и тому подобное. И видимо об этом было столько много относительно свежих упоминаний в интернете, что, обнаружив их, ИИ решил, что мы так празднуем день рождения Петра Алексеича каждый год. Упс.

Следующее то же самое. Уж сколько лет проходят Алые Паруса, но никогда я не слышала, что кто-то называет их «Корабль детства» - да и как-то нелогично это, ведь Алые Паруса как раз наоборот, символ новой взрослой жизни. Но и на этот вопрос есть ответ: если погуглить «Алые паруса корабль детства», то поисковик выдаст сценарии детсадовских выпускных с такими названиями.

Я сейчас не буду говорить о простоте и примитивности этого текста – все же есть люди, которые так пишут. НО!!! На чем тут попадается ИИ: если это пишет реальный человек, то при такой стилистике текста у него обязательно будут орфографические и пунктуационные ошибки. А в этом тексте их нет.

Есть и еще моменты выведения ИИ на чистую воду, но в этом тексте они не встретились. Если интересно, покажу при случае.

________________________________

Друзья, если вам понравилась статья – пожалуйста, поставьте лайк, это важно для развития проекта! И подписывайтесь на меня – будет много нового, интересного и полезного! Обещаю, скучно не будет!