Найти в Дзене

Почему КонтрПлагиат успешно убирает статус - "Внимание, документ подозрительный: в документе присутствует сгенерированный текст"

Генеративные тексты, созданные с помощью моделей искусственного интеллекта, таких как GPT, становятся всё более неразличимы от текстов, написанных человеком. Однако существуют определённые характеристики, которые позволяют отличить одно от другого. Вот и антиплагиат ВУЗ умудрился прилюдно заявить, что умеет определять генеративные тексты, правда забыв упомянуть, что тексты изучает как статистические и не лезет в генеративность.

КонтрПлагиат - рекомендуем перефразирование генеративный текстов для прохождения проверок в антиплагиат
КонтрПлагиат - рекомендуем перефразирование генеративный текстов для прохождения проверок в антиплагиат

Ниже приведен список сервисов, которые помогают определять, был ли текст сгенерирован с помощью искусственного интеллекта:

- AI Text Classifier - разработан OpenAI, предлагает анализ текста и определение его происхождения – сервис предупреждает – мы не умеем детектировать генеративные тексты.

- GPTZero - онлайн-сервис, который предоставляет функциональность для определения текста, написанного ИИ.

- Turnitin - широко известный сервис для обнаружения плагиата, который также может использоваться для выявления генеративных текстов.

- Copyscape - инструмент для проверки уникальности текста, который может помочь выявить копии и потенциально генеративные тексты.

- Grammarly - хотя изначально предназначен для проверки грамматики и стиля, может помочь выявить неестественные фразы, которые могут быть признаками генеративного текста.

- Quetext - сервис для проверки плагиата, который также может обнаруживать сгенерированные тексты.

- Plagscan - инструмент, который анализирует тексты на предмет плагиата и может быть использован для выявления генеративных текстов.

- Unicheck - сервис для обнаружения плагиата, который может помочь в идентификации ИИ-сгенерированных текстов.

- Scribbr - сервис проверки плагиата, который также может использоваться для выявления текстов, созданных с помощью ИИ.

- ProWritingAid - инструмент для редактирования и улучшения текста, который может помочь обнаружить неестественные конструкции, характерные для генеративных текстов.

Эти сервисы используют различные методы и алгоритмы для анализа текстов и могут быть полезными в определении, был ли текст написан человеком или сгенерирован ИИ. Однако следует помнить, что ни один инструмент не может гарантировать 100% точность, и результаты следует рассматривать как часть более широкого анализа.

КонтрПлагиат - результат перефразирования академических текстов - успешная проверка в антиплагиат ВУЗ
КонтрПлагиат - результат перефразирования академических текстов - успешная проверка в антиплагиат ВУЗ

Отличия генеративного текста от человеческого, мнение GPT:

- Стиль и тон: Генеративные тексты могут быть более формальными и последовательными, в то время как человеческие тексты часто содержат индивидуальные стилистические особенности и эмоциональные нюансы.

- Повторения и редундантность: ИИ может склоняться к повторению одних и тех же фраз или идей, в то время как человек стремится избегать излишней редундантности.

- Контекстуальное понимание: Человеческие тексты часто демонстрируют глубокое понимание контекста и могут содержать сложные аналогии и отсылки, которые могут быть сложны для воспроизведения ИИ.

По мнению КонтрПлагиат, данная характеристика слишком общая, отличия генеративного текста от человеческого – это целый пакет метрик. При анализе текста можно обратить внимание на следующие статистические метрики:

- Частотность слов, сколько раз определённые слова или фразы встречаются в тексте.

- Синтаксическая структура, распределение частей речи, таких как глаголы, существительные и прилагательные, и их формы.

- Длина предложений, вариативность длины предложений может указывать на стиль автора, вероятно давно не секрет, что антиплагиат, который ВУЗ, любит короткие предложения.

- Лексическое разнообразие, использование различных слов и синонимов.

- Согласованность времён, пособность автора согласовывать времена глаголов в предложении и тексте.

КонтрПлагиат - перефразирование - рекомендованный ВУЗами метод, поможет повысить уникальность или очеловечить генеративный текст
КонтрПлагиат - перефразирование - рекомендованный ВУЗами метод, поможет повысить уникальность или очеловечить генеративный текст

Модель, определяющая генеративность текстов, используемая в КонтрПлагиат осуществляет следующие анализы:

- Экспертная оценка текста - оценка качества и достоверности текста экспертами.

- Графематический анализ - изучение письменной формы языка.

- Морфологический анализ - анализ форм слов и их изменения.

- Синтаксический анализ - изучение структуры предложений и их связей.

- Семантический анализ - анализ значения слов и фраз.

- Токенизация - разделение текста на отдельные слова или токены.

- Стемминг - приведение слова к его основе или стему.

- Лемматизация - приведение слова к его лемме или словарной форме, вероятно многие знают, что этот способ используется в алгоритме антиплагиат.

- Частеречная разметка - определение части речи каждого слова в тексте.

- Синтаксический парсинг - анализ синтаксической структуры предложений.

- Семантический парсинг - извлечение семантической информации из текста.

- Анализ тональности - определение эмоциональной окраски текста.

- Анализ соавторства - определение вероятных соавторов текста или откуда все списано.

- Биграммный анализ - анализ частоты последовательности двух слов, данный способ КонтрПлагиат описывал неоднократно, именно шинглы из 2 слов сверяет любая антиплагиат система.

- Триграммный анализ - анализ частоты последовательности трёх слов.

Такой подход гарантирует, что КонтрПлагиат точно определит узкие места текста и сможет его очеловечить. Ниже нами обобщены основные метрики отличающие генеративный текст ИИ от человеческого, именно эти метрики КонтрПлагиат использует в процессе очеловечивания GPT текстов:

- Энтропия - мера неопределенности или хаоса в тексте. Чем выше энтропия, тем более случайным и непредсказуемым является текст. Для генеративного текста энтропия может быть около 4.5-5.5 бит/символ, а для текста, написанного человеком, около 3.5-4.5 бит/символ.

- Коэффициент сжатия - отношение размера сжатого текста к размеру исходного текста. Чем ниже коэффициент сжатия, тем более избыточным и повторяющимся является текст. Для генеративного текста коэффициент сжатия может быть около 0.4-0.6, а для текста, написанного человеком, около 0.2-0.4.

- Средняя длина предложения - количество слов в предложении, деленное на количество предложений в тексте. Чем больше средняя длина предложения, тем более сложным и запутанным является текст. Для генеративного текста средняя длина предложения может быть около 15-25 слов, а для текста, написанного человеком, около 10-20 слов.

- Средняя длина слова - количество букв в слове, деленное на количество слов в тексте. Чем больше средняя длина слова, тем более редкими и специфическими являются слова в тексте. Для генеративного текста средняя длина слова может быть около 5-7 букв, а для текста, написанного человеком, около 4-6 букв.

- Частота уникальных слов - отношение количества различных слов в тексте к общему количеству слов в тексте. Чем выше частота уникальных слов, тем более разнообразным и оригинальным является текст. Для генеративного текста частота уникальных слов может быть около 40-60%, а для текста, написанного человеком, около 50-70%.

- Частота стоп-слов - отношение количества общеупотребительных слов в тексте к общему количеству слов в тексте. Чем ниже частота стоп-слов, тем более информативным и содержательным является текст. Для генеративного текста частота стоп-слов может быть около 30-50%, а для текста, написанного человеком, около 20-40%.

- Частота знаков препинания - отношение количества знаков препинания в тексте к общему количеству символов в тексте. Чем выше частота знаков препинания, тем более структурированным и грамотным является текст. Для генеративного текста частота знаков препинания может быть около 5-10%, а для текста, написанного человеком, около 3-7%.

- Частота ошибок - отношение количества орфографических, грамматических и синтаксических ошибок в тексте к общему количеству слов в тексте. Чем выше частота ошибок, тем более некачественным и непрофессиональным является текст. Для генеративного текста частота ошибок может быть около 1-5%, а для текста, написанного человеком, около 0-2%.

- Частота эмодзи - отношение количества эмодзи в тексте к общему количеству символов в тексте. Чем выше частота эмодзи, тем более неформальным и эмоциональным является текст. Для генеративного текста частота эмодзи может быть около 0-2%, а для текста, написанного человеком, около 0-1%.

- Частота цитат - отношение количества цитат в тексте к общему количеству предложений в тексте. Чем выше частота цитат, тем более заимствованным и неавторским является текст. Для генеративного текста частота цитат может быть около 5-15%, а для текста, написанного человеком, около 0-10%.

- Частота ссылок - отношение количества ссылок в тексте к общему количеству слов в тексте. Чем выше частота ссылок, тем более документированным и подтвержденным является текст. Для генеративного текста частота ссылок может быть около 0-5%, а для текста, написанного человеком, около 0-10%.

- Частота аббревиатур - отношение количества аббревиатур в тексте к общему количеству слов в тексте. Чем выше частота аббревиатур, тем более специализированным и терминологическим является текст. Для генеративного текста частота аббревиатур может быть около 0-10%, а для текста, написанного человеком, около 0-5%.

- Частота иностранных слов - отношение количества слов на других языках в тексте к общему количеству слов в тексте. Чем выше частота иностранных слов, тем более многоязычным и космополитичным является текст. Для генеративного текста частота иностранных слов может быть около 0-10%, а для текста, написанного человеком, около 0-5%.

- Частота риторических фигур - отношение количества риторических фигур в тексте к общему количеству предложений в тексте. Чем выше частота риторических фигур, тем более выразительным и художественным является текст.

Другие наши статьи

Искусственный интеллект решает судьбу человека: наше будущее или фантазия?

На заре XXI века мы находимся в разгаре цифровой революции, когда информационные технологии не просто проникли, но и стали основой общественной жизни, распространив свое влияние даже на традиционно независимые ветви власти, такие как судебная власть. . Интеграция видеоконференций, онлайн-допросов и сложных компьютерных программ, которые автономно выбирают и применяют судебную практику,…

О привлечении искусственного интеллекта к уголовной ответственности

В нынешнюю эпоху, характеризующуюся быстрой эволюцией цифровых инноваций, человечество становится свидетелем преобразующих сдвигов в повседневной жизни, вызванных революционными достижениями четвертой промышленной революции. Появление роботизированных систем, оснащенных искусственным интеллектом, является свидетельством технологических триумфов этой эпохи. Плоды обширных исследований в области разработки ИИ и его применения пронизывают практически все сектора общества, настолько…

Применение цифровых технологий в фармацевтическом бизнесе: правовое регулирование продажи рецептурных препаратов через площадки электронной коммерции

Национальная программа «Здравоохранение» положила начало новой эпохе современного здравоохранения, доступного каждому нуждающемуся. Однако бурные события 2020 года потребовали быстрых и важных решений, которые повлияли на миллионы россиян из-за непредвиденной эпидемии COVID-19, которая быстро унесла тысячи жизней. Несмотря на неудачи, произошедшие во всем мире, этот трудный период стал катализатором развития информационных…

Актуальный PR-копирайтинг: специфика создания текста

Современное информационное общество с его сложной сетью взаимосвязанных платформ и каналов навязывает нам новые условия потребления медиа (Кульчицкая, Вартанов, Дунас, Салихова, 2019). Неустанный всплеск потока информации в сочетании с коварным появлением того, что часто называют «информационным шумом», оказывает свое влияние на каждого человека, будь то читатель, слушатель или пользователь –…

Видеодраматургия: эстетические предпосылки и специфика создания успешного рекламного контента

Всемирная паутина, которой уже более полувека, стала свидетелем эпохи преобразований, особенно до появления платформы видеохостинга Youtube 23 апреля 2005 года. До этого интернет-видео были доступны исключительно посредством загрузки по ссылкам, предоставленным автором, поскольку технические возможности для полноценного интернет-телевещания отсутствовали. Перенесемся на 15 лет вперед, и сетевые цифровые коммуникации претерпели…

Визуальное против аудиального: влияние на современный копирайтинг

Современный термин «копирайтинг» (происходит от английского copywriting: копировать — текст, рукопись, писать — писать) охватывает создание различных текстовых форм, в том числе публицистических — предназначенных для радио и телевидения, обслуживающих все каналы распространения информации, в том числе аудиовизуальные средства массовой информации, которые обладают своими собственными отличительными характеристиками. Несмотря на повсеместную…

«VK клипы» как инструмент продвижения бизнеса

Использование геймификации в продвижении банковских услуг

Виртуальные международные выставки как средство коммуникации предприятий в цифровой экономике

Компьютерные игры в системных процессах формирования патриотических настроев: особенности стратегии продвижения

Правовые ограничения использования криптовалюты в современную эпоху

О влиянии развития цифровых технологий на сущность правоотношений

Развитие цифровых технологий в условиях совершенствования конституционно-правового регулирования пространственного развития

Трансформация прав человека в эпоху цифровых технологий: опыт зарубежных стран

Мониторинг и меры по профилактике как формы государственного контроля (надзора)

Необходимость систематизации законодательства в сфере цифровых технологий

Цифровые технологии в налоговых и гражданских правоотношениях в российской федерации

Участие граждан в законодательном процессе при помощи цифровых технологий