Генеративные тексты, созданные с помощью моделей искусственного интеллекта, таких как GPT, становятся всё более неразличимы от текстов, написанных человеком. Однако существуют определённые характеристики, которые позволяют отличить одно от другого. Вот и антиплагиат ВУЗ умудрился прилюдно заявить, что умеет определять генеративные тексты, правда забыв упомянуть, что тексты изучает как статистические и не лезет в генеративность.
Ниже приведен список сервисов, которые помогают определять, был ли текст сгенерирован с помощью искусственного интеллекта:
- AI Text Classifier - разработан OpenAI, предлагает анализ текста и определение его происхождения – сервис предупреждает – мы не умеем детектировать генеративные тексты.
- GPTZero - онлайн-сервис, который предоставляет функциональность для определения текста, написанного ИИ.
- Turnitin - широко известный сервис для обнаружения плагиата, который также может использоваться для выявления генеративных текстов.
- Copyscape - инструмент для проверки уникальности текста, который может помочь выявить копии и потенциально генеративные тексты.
- Grammarly - хотя изначально предназначен для проверки грамматики и стиля, может помочь выявить неестественные фразы, которые могут быть признаками генеративного текста.
- Quetext - сервис для проверки плагиата, который также может обнаруживать сгенерированные тексты.
- Plagscan - инструмент, который анализирует тексты на предмет плагиата и может быть использован для выявления генеративных текстов.
- Unicheck - сервис для обнаружения плагиата, который может помочь в идентификации ИИ-сгенерированных текстов.
- Scribbr - сервис проверки плагиата, который также может использоваться для выявления текстов, созданных с помощью ИИ.
- ProWritingAid - инструмент для редактирования и улучшения текста, который может помочь обнаружить неестественные конструкции, характерные для генеративных текстов.
Эти сервисы используют различные методы и алгоритмы для анализа текстов и могут быть полезными в определении, был ли текст написан человеком или сгенерирован ИИ. Однако следует помнить, что ни один инструмент не может гарантировать 100% точность, и результаты следует рассматривать как часть более широкого анализа.
Отличия генеративного текста от человеческого, мнение GPT:
- Стиль и тон: Генеративные тексты могут быть более формальными и последовательными, в то время как человеческие тексты часто содержат индивидуальные стилистические особенности и эмоциональные нюансы.
- Повторения и редундантность: ИИ может склоняться к повторению одних и тех же фраз или идей, в то время как человек стремится избегать излишней редундантности.
- Контекстуальное понимание: Человеческие тексты часто демонстрируют глубокое понимание контекста и могут содержать сложные аналогии и отсылки, которые могут быть сложны для воспроизведения ИИ.
По мнению КонтрПлагиат, данная характеристика слишком общая, отличия генеративного текста от человеческого – это целый пакет метрик. При анализе текста можно обратить внимание на следующие статистические метрики:
- Частотность слов, сколько раз определённые слова или фразы встречаются в тексте.
- Синтаксическая структура, распределение частей речи, таких как глаголы, существительные и прилагательные, и их формы.
- Длина предложений, вариативность длины предложений может указывать на стиль автора, вероятно давно не секрет, что антиплагиат, который ВУЗ, любит короткие предложения.
- Лексическое разнообразие, использование различных слов и синонимов.
- Согласованность времён, пособность автора согласовывать времена глаголов в предложении и тексте.
Модель, определяющая генеративность текстов, используемая в КонтрПлагиат осуществляет следующие анализы:
- Экспертная оценка текста - оценка качества и достоверности текста экспертами.
- Графематический анализ - изучение письменной формы языка.
- Морфологический анализ - анализ форм слов и их изменения.
- Синтаксический анализ - изучение структуры предложений и их связей.
- Семантический анализ - анализ значения слов и фраз.
- Токенизация - разделение текста на отдельные слова или токены.
- Стемминг - приведение слова к его основе или стему.
- Лемматизация - приведение слова к его лемме или словарной форме, вероятно многие знают, что этот способ используется в алгоритме антиплагиат.
- Частеречная разметка - определение части речи каждого слова в тексте.
- Синтаксический парсинг - анализ синтаксической структуры предложений.
- Семантический парсинг - извлечение семантической информации из текста.
- Анализ тональности - определение эмоциональной окраски текста.
- Анализ соавторства - определение вероятных соавторов текста или откуда все списано.
- Биграммный анализ - анализ частоты последовательности двух слов, данный способ КонтрПлагиат описывал неоднократно, именно шинглы из 2 слов сверяет любая антиплагиат система.
- Триграммный анализ - анализ частоты последовательности трёх слов.
Такой подход гарантирует, что КонтрПлагиат точно определит узкие места текста и сможет его очеловечить. Ниже нами обобщены основные метрики отличающие генеративный текст ИИ от человеческого, именно эти метрики КонтрПлагиат использует в процессе очеловечивания GPT текстов:
- Энтропия - мера неопределенности или хаоса в тексте. Чем выше энтропия, тем более случайным и непредсказуемым является текст. Для генеративного текста энтропия может быть около 4.5-5.5 бит/символ, а для текста, написанного человеком, около 3.5-4.5 бит/символ.
- Коэффициент сжатия - отношение размера сжатого текста к размеру исходного текста. Чем ниже коэффициент сжатия, тем более избыточным и повторяющимся является текст. Для генеративного текста коэффициент сжатия может быть около 0.4-0.6, а для текста, написанного человеком, около 0.2-0.4.
- Средняя длина предложения - количество слов в предложении, деленное на количество предложений в тексте. Чем больше средняя длина предложения, тем более сложным и запутанным является текст. Для генеративного текста средняя длина предложения может быть около 15-25 слов, а для текста, написанного человеком, около 10-20 слов.
- Средняя длина слова - количество букв в слове, деленное на количество слов в тексте. Чем больше средняя длина слова, тем более редкими и специфическими являются слова в тексте. Для генеративного текста средняя длина слова может быть около 5-7 букв, а для текста, написанного человеком, около 4-6 букв.
- Частота уникальных слов - отношение количества различных слов в тексте к общему количеству слов в тексте. Чем выше частота уникальных слов, тем более разнообразным и оригинальным является текст. Для генеративного текста частота уникальных слов может быть около 40-60%, а для текста, написанного человеком, около 50-70%.
- Частота стоп-слов - отношение количества общеупотребительных слов в тексте к общему количеству слов в тексте. Чем ниже частота стоп-слов, тем более информативным и содержательным является текст. Для генеративного текста частота стоп-слов может быть около 30-50%, а для текста, написанного человеком, около 20-40%.
- Частота знаков препинания - отношение количества знаков препинания в тексте к общему количеству символов в тексте. Чем выше частота знаков препинания, тем более структурированным и грамотным является текст. Для генеративного текста частота знаков препинания может быть около 5-10%, а для текста, написанного человеком, около 3-7%.
- Частота ошибок - отношение количества орфографических, грамматических и синтаксических ошибок в тексте к общему количеству слов в тексте. Чем выше частота ошибок, тем более некачественным и непрофессиональным является текст. Для генеративного текста частота ошибок может быть около 1-5%, а для текста, написанного человеком, около 0-2%.
- Частота эмодзи - отношение количества эмодзи в тексте к общему количеству символов в тексте. Чем выше частота эмодзи, тем более неформальным и эмоциональным является текст. Для генеративного текста частота эмодзи может быть около 0-2%, а для текста, написанного человеком, около 0-1%.
- Частота цитат - отношение количества цитат в тексте к общему количеству предложений в тексте. Чем выше частота цитат, тем более заимствованным и неавторским является текст. Для генеративного текста частота цитат может быть около 5-15%, а для текста, написанного человеком, около 0-10%.
- Частота ссылок - отношение количества ссылок в тексте к общему количеству слов в тексте. Чем выше частота ссылок, тем более документированным и подтвержденным является текст. Для генеративного текста частота ссылок может быть около 0-5%, а для текста, написанного человеком, около 0-10%.
- Частота аббревиатур - отношение количества аббревиатур в тексте к общему количеству слов в тексте. Чем выше частота аббревиатур, тем более специализированным и терминологическим является текст. Для генеративного текста частота аббревиатур может быть около 0-10%, а для текста, написанного человеком, около 0-5%.
- Частота иностранных слов - отношение количества слов на других языках в тексте к общему количеству слов в тексте. Чем выше частота иностранных слов, тем более многоязычным и космополитичным является текст. Для генеративного текста частота иностранных слов может быть около 0-10%, а для текста, написанного человеком, около 0-5%.
- Частота риторических фигур - отношение количества риторических фигур в тексте к общему количеству предложений в тексте. Чем выше частота риторических фигур, тем более выразительным и художественным является текст.
Другие наши статьи
Искусственный интеллект решает судьбу человека: наше будущее или фантазия?
На заре XXI века мы находимся в разгаре цифровой революции, когда информационные технологии не просто проникли, но и стали основой общественной жизни, распространив свое влияние даже на традиционно независимые ветви власти, такие как судебная власть. . Интеграция видеоконференций, онлайн-допросов и сложных компьютерных программ, которые автономно выбирают и применяют судебную практику,…
О привлечении искусственного интеллекта к уголовной ответственности
В нынешнюю эпоху, характеризующуюся быстрой эволюцией цифровых инноваций, человечество становится свидетелем преобразующих сдвигов в повседневной жизни, вызванных революционными достижениями четвертой промышленной революции. Появление роботизированных систем, оснащенных искусственным интеллектом, является свидетельством технологических триумфов этой эпохи. Плоды обширных исследований в области разработки ИИ и его применения пронизывают практически все сектора общества, настолько…
Национальная программа «Здравоохранение» положила начало новой эпохе современного здравоохранения, доступного каждому нуждающемуся. Однако бурные события 2020 года потребовали быстрых и важных решений, которые повлияли на миллионы россиян из-за непредвиденной эпидемии COVID-19, которая быстро унесла тысячи жизней. Несмотря на неудачи, произошедшие во всем мире, этот трудный период стал катализатором развития информационных…
Актуальный PR-копирайтинг: специфика создания текста
Современное информационное общество с его сложной сетью взаимосвязанных платформ и каналов навязывает нам новые условия потребления медиа (Кульчицкая, Вартанов, Дунас, Салихова, 2019). Неустанный всплеск потока информации в сочетании с коварным появлением того, что часто называют «информационным шумом», оказывает свое влияние на каждого человека, будь то читатель, слушатель или пользователь –…
Видеодраматургия: эстетические предпосылки и специфика создания успешного рекламного контента
Всемирная паутина, которой уже более полувека, стала свидетелем эпохи преобразований, особенно до появления платформы видеохостинга Youtube 23 апреля 2005 года. До этого интернет-видео были доступны исключительно посредством загрузки по ссылкам, предоставленным автором, поскольку технические возможности для полноценного интернет-телевещания отсутствовали. Перенесемся на 15 лет вперед, и сетевые цифровые коммуникации претерпели…
Визуальное против аудиального: влияние на современный копирайтинг
Современный термин «копирайтинг» (происходит от английского copywriting: копировать — текст, рукопись, писать — писать) охватывает создание различных текстовых форм, в том числе публицистических — предназначенных для радио и телевидения, обслуживающих все каналы распространения информации, в том числе аудиовизуальные средства массовой информации, которые обладают своими собственными отличительными характеристиками. Несмотря на повсеместную…
«VK клипы» как инструмент продвижения бизнеса
Использование геймификации в продвижении банковских услуг
Виртуальные международные выставки как средство коммуникации предприятий в цифровой экономике
Правовые ограничения использования криптовалюты в современную эпоху
О влиянии развития цифровых технологий на сущность правоотношений
Трансформация прав человека в эпоху цифровых технологий: опыт зарубежных стран
Мониторинг и меры по профилактике как формы государственного контроля (надзора)
Необходимость систематизации законодательства в сфере цифровых технологий
Цифровые технологии в налоговых и гражданских правоотношениях в российской федерации
Участие граждан в законодательном процессе при помощи цифровых технологий