7713 подписчиков

Текст корректурой не испортишь

22 апреля22 апр

7 мин

Примерно пару лет назад дошло до меня, о великий раджа, что нейросети начали у нас научились писать книги. Я не поверил. Потом мне сказали, о лучший из моих читателей, что эти книги уже вовсю продают за деньги. Не афишируя, правда, имя истинного автора. Но я опять не поверил. А недавно меня буквально пинками выгнали из башни слоновой кости и сказали, невежливо толкнув в спину: "Ну харэ уже! Иди, изучай вопрос. А то стыдно за твое невежество". Я изучил. Узнал, что Яндекс уже даже выкатил нейродетектор, который определяет долю машинного текста. И я его даже протестировал - и выяснил, что он может ошибиться, и объявить нейронку написанной человеком. Что, конечно, печалит. Но у него есть и одно несомненное достоинство - он ни разу не объявил текст, написанный человеком - "нейронкой". По крайней мере, мне достоверно подтвержденные случаи неизвестны. И это делает его рабочим инструментов. Потом я померил этим инструментом топ-10 самых популярных новинок месяца на портале "Автор.Тудей" и приш

Примерно пару лет назад дошло до меня, о великий раджа, что нейросети начали у нас научились писать книги.

Я не поверил.

Потом мне сказали, о лучший из моих читателей, что эти книги уже вовсю продают за деньги. Не афишируя, правда, имя истинного автора.

Но я опять не поверил.

А недавно меня буквально пинками выгнали из башни слоновой кости и сказали, невежливо толкнув в спину: "Ну харэ уже! Иди, изучай вопрос. А то стыдно за твое невежество".

Я изучил.

Узнал, что Яндекс уже даже выкатил нейродетектор, который определяет долю машинного текста. И я его даже протестировал - и выяснил, что он может ошибиться, и объявить нейронку написанной человеком. Что, конечно, печалит.

Но у него есть и одно несомненное достоинство - он ни разу не объявил текст, написанный человеком - "нейронкой". По крайней мере, мне достоверно подтвержденные случаи неизвестны.

И это делает его рабочим инструментов.

Потом я померил этим инструментом топ-10 самых популярных новинок месяца на портале "Автор.Тудей" и пришел в ужас - больше половины самых продаваемых книг были написаны нейросетью.

Потом я про это написал статью и под ней разгорелся шкандаль.

Некоторые из возражений мне показались стоящими внимания.

Возражение первое: Было очень много комментариев в стиле "А мой текст Яндекс-детектор обозвал "нейросеткой", хотя я писала сама".

Этот аргумент возникал во множестве вариантов и гипотетические промахи Яндекс-детектора обрастали все новыми подробностями. И мол, Яндекс не прокалывается на старых текстах 19-20 века, потому что манера писать изменилась, но на новых ошибается только в путь. И что при большом количестве деепричастных оборотов (или длинного тире, или точки с запятой, или двух типов кавычек - версии возникали разные) он опять-таки прокалывается и объявляет авторский текст нейросеткой".

Не увидел я только одного - ПРОВЕРЯЕМОЙ информации об ошибке.

Уважаемые, я вас, безусловно, очень уважаю и даже где-то люблю, но в любом исследовании должен быть такой необходимый критерий как "проверяемость". Что-то, что может повторить любой, увидеть тот же самый результат и убедится, что вы правы. То, что забракованный текст вы написали не пользуясь нейросеткой, к сожалению, не проверяемо.

Я не то чтобы вам не верю - я верю! Но при исследовании я должен не верить, а знать. Должен иметь возможность проверить. "Мамой кылянусь!" - не является доказательством при любой степени экспрессии.

Поэтому все очень просто - если мне кто-нибудь пришлет сообщение вроде "Если загнать в детектор главу № 7 романа Фрица Лейбера «Серебряные яйцеглавы», то Яндекс-детектор выдает 70% нейросетки. Ха. Ха. Ха." - то я проверю, и при положительном результате извинюсь и признаю, что этот детектор нельзя использовать в качестве инструмента.

А до тех пор предпочту считать, подтвержденных облыжных обвинений "Яндекс-детектора" в использовании нейросети пока нет.

Возражение второе. "Я пишу сам, но потом всего лишь прошу Дипсик сделать корректорскую правку - а тексту ставят 70% и меня объявляют нейрописателем!".

Резонное возражение. Давайте проверять.

Проверять я решил на своих художественных книгах. Я им не делал корректуру нейросеткой, поэтому они вполне годятся.

Первая глава «В бой идут»

Проверка на Яндекс-детекторе без корректуры. Вердикт - "Этот тест сгенерирован нейросетью с вероятностью 0,65%".

Дипсик делает корректуру, включая "устранение стилистических повторов и шероховатостей". Скорректированный текст несу шайтан-машине.

Вердикт после корректуры – 1,16%

Глава 2. До корректуры – 0,0%, после корректуры – 0,96%

Глава 3. До - 0,00%, после – 0,35%.

После свистка судьи на замену "В бой идут" выходит первый том «Куда идем мы».

Глава 1 до корректуры – 0,00%, после корректуры – 0,00%

Глава 2 – 0,00% и 0,00%

Глава 3 – 0,23% и, вы будете смеяться, 0,00%

Вы можете сказать мне - конечно! У тебя там и править-то нечего! Но не все такие грамотные и не все так чисто пишут еще в черновике! А им как быть? Не править книги? Платить корректору вместо бесплатного Дипсика?

Резонно! - почесал затылок я и решил оторваться на все деньги.

Для третьего теста я взял завалившийся в недра моего компьютера текст древней китайской бесконечной новеллы "Мир онлайн" автора Sheng Xiao.

Этот немного облагороженный машинный перевод я много лет назад скачал с "Рулета", да так и забыл стереть.

Уж там-то правки будет - не разгрести, те, кто читал "переводы" Кента не дадут соврать!

Погнали!

1 глава «Перезагрузка». Вердикт шайтан-машины до любых правок – 0,00%. Судя по всему, машинный перевод десятых годов шайтан-арба нейросетью не считает.

Даже Дипсик малость прифигел от поставленной задачи: "Мы видим запрос на корректорскую правку первой главы другой книги. Текст на русском, но чувствуется влияние машинного перевода с китайского или английского (например, "Оуян Шо", "Сун Хэйтар", "Бин'эр", "Земля Онлайн", специфические обороты). Нужно исправить орфографию, пунктуацию, стилистику, сделать текст более литературным, устранить явные ошибки и неестественные фразы. Поскольку это корректура, а не художественный перевод, сохраняем имена и термины, но правим грамматику и синтаксис".

Знаете, сколько шайтан-машина выписала первой главе после корректуры?

Все те же 0,00%

Глава 2 «Соседка». Было 0,00%, после корректуры стало – 0,46%

И тут мне в голову пришла интересная мысль и я попросил Дипсика сделать этой главе глубокую редакторскую правку.

Он согласился и вот что натворил, дальше цитата:

_________________

1. Перестройка предложений — убраны длинные, неестественные конструкции, типичные для подстрочника (например: «Оуян Шо не стал ее дразнить, вместо этого он подошел, сел на диван…» → «Оуян Шо не стал её дразнить. Он сел на диван…»).

2. Замена штампов и канцеляризмов — «в поле зрения», «двукратно подтвердить», «выразить свою признательность», «провести весь день» заменены на живые обороты.

3. Устранение логических нестыковок — уточнено, что Бин’эр «только что исполнилось восемь» (вместо «в этом году исполнилось восемь лет» — это почти одно и то же, но звучит естественнее). Также поправлено: «она носила розовую одежду, и невозможно было удержаться, чтобы не потискать» — переделано.

4. Диалоги — сделаны более живыми, убраны излишние вежливые «вы» при обращении к соседке после знакомства (оставлены только первое обращение).

5. Заголовок — «Сожительство» изменён на «Соседка» (более точно передаёт суть и без негативной коннотации).

6. Ритм и абзацы — длинные абзацы разбиты на более короткие, текст стал легче читаться.

7. Имена — везде выдержано единообразие: Оуян Шо, Бин’эр, Сунь Сяоюэ (иногда просто Сяоюэ).

8. Термины — сохранены «Сиафон», «Скайнет», «кредиты». Добавлено пояснение про Сиафон (персональный компьютер) — в первом появлении, чтобы читатель не гадал.

_____________

Знаете, сколько процентов выписал Яндекс-детектор после такой редактуры?

1,55%

Конечно же, я запросил редактуру и первой главы.

После этой редактуры имевшийся ноль вырос до 2,66%

Третья глава. «Создание персонажа».

Оригинальный словопомол - 0,00% нейроконтента.

После корректуры – 0,51%

После глубокой редактуры – 1,85%

Из чего я делаю вывод, что ни корректура нейросетей, ни даже их редактура практически не поднимает процент изначально оригинальному тексту в нейроопределителе Яндекса.

Если загружаемому тексту шайтан-машина сразу выписывает высокий процент, текст почти наверняка действительно написан ИИ.

А "испортить его корректурой" можно разве что дав Дипсику задание "переписать все от и до своими словами".

Кстати, почему нет? Попросил переписать своими словами третью главу машинного перевода.

Дипсик задание выполнил, главу несказанно улучшил, после чего еще и предупредил: «Это не редактура, а именно пересказ — с изменённой структурой, другими оборотами, но с сохранением всей фактуры и духа главы. Если хотите, могу так же переписать любую другую главу».

После пересказа процент подскочил до 17.12%

Возражение третье.

Один автор заявил, что его высокий процент, скорее всего, объясняется тем, что новые главы он надиктовывает на телефон, а поскольку текст после расшифровки аудио идет сплошным массивом, почти без знаков препинания и с кучей ошибок, то он отдает его на исправление соцсетям.

А шайтан-машина потом ему рисует 100% нейронки.

Мне стало интересно - неужели все действительно так печально?

Уже много лет, еще с журналистской поры для расшифровки интервью и прочего аудио я пользуюсь программой Speech2Text и, клянусь вам - горя не знаю. Это не реклама, это мои настоящие впечатления.

Я загнал в нее три аудиофайла из имеющихся у меня на компе аудиокниг:

1 главу аудиоверсии «В бой идут»,

1 главу аудиоверсии «Куда идем мы»

и, чтобы не замыкаться только на своих файлах – 1 главу аудиоверсии сказки Джанни Родари "Голубая стрела" в исполнении Сергея Чонишвили.

Кстати - все три файла читают разные чтецы, и качество звука тоже очень разное.

Полученную расшифровку загнал в шайтан-машину по принципу «как есть». То есть не в самом приглядном виде. Примерно в таком.

Что же мы получили в итоге?

«В бой идут» как есть – 0,25%.

С Дипсиком начал новый сеанс, поскольку старый видел этот файл в оригинальном виде. Попросил сделать из этого массива нормальную главу – разбить на абзацы, исправить ошибки и т.п.

Он все сделал.

Красивая глава уехала в шайтан-машину. Результат – 0,86%

Попытка №2 - "Куда идем мы" после расшифровки - 0,00%

Красиво форматированный Дипсиком файл - 0,00%

№3 - Джанни Родари после расшифровки - 0,61%

А красивый файл получил "три баранки" - 0,00%

Выводы, можно ли таким образом испортить свой глубоко оригинальный текст, можете делать самостоятельно.

А я откланиваюсь.

Да! Чуть не забыл. Картинки для своих блогов про нейросети я ворую у Романа Прокофьева из вот с этого его весьма умного поста. Все время забываю покаяться.