Примерно пару лет назад дошло до меня, о великий раджа, что нейросети начали у нас научились писать книги.
Я не поверил.
Потом мне сказали, о лучший из моих читателей, что эти книги уже вовсю продают за деньги. Не афишируя, правда, имя истинного автора.
Но я опять не поверил.
А недавно меня буквально пинками выгнали из башни слоновой кости и сказали, невежливо толкнув в спину: "Ну харэ уже! Иди, изучай вопрос. А то стыдно за твое невежество".
Я изучил.
Узнал, что Яндекс уже даже выкатил нейродетектор, который определяет долю машинного текста. И я его даже протестировал - и выяснил, что он может ошибиться, и объявить нейронку написанной человеком. Что, конечно, печалит.
Но у него есть и одно несомненное достоинство - он ни разу не объявил текст, написанный человеком - "нейронкой". По крайней мере, мне достоверно подтвержденные случаи неизвестны.
И это делает его рабочим инструментов.
Потом я померил этим инструментом топ-10 самых популярных новинок месяца на портале "Автор.Тудей" и пришел в ужас - больше половины самых продаваемых книг были написаны нейросетью.
Потом я про это написал статью и под ней разгорелся шкандаль.
Некоторые из возражений мне показались стоящими внимания.
Возражение первое: Было очень много комментариев в стиле "А мой текст Яндекс-детектор обозвал "нейросеткой", хотя я писала сама".
Этот аргумент возникал во множестве вариантов и гипотетические промахи Яндекс-детектора обрастали все новыми подробностями. И мол, Яндекс не прокалывается на старых текстах 19-20 века, потому что манера писать изменилась, но на новых ошибается только в путь. И что при большом количестве деепричастных оборотов (или длинного тире, или точки с запятой, или двух типов кавычек - версии возникали разные) он опять-таки прокалывается и объявляет авторский текст нейросеткой".
Не увидел я только одного - ПРОВЕРЯЕМОЙ информации об ошибке.
Уважаемые, я вас, безусловно, очень уважаю и даже где-то люблю, но в любом исследовании должен быть такой необходимый критерий как "проверяемость". Что-то, что может повторить любой, увидеть тот же самый результат и убедится, что вы правы. То, что забракованный текст вы написали не пользуясь нейросеткой, к сожалению, не проверяемо.
Я не то чтобы вам не верю - я верю! Но при исследовании я должен не верить, а знать. Должен иметь возможность проверить. "Мамой кылянусь!" - не является доказательством при любой степени экспрессии.
Поэтому все очень просто - если мне кто-нибудь пришлет сообщение вроде "Если загнать в детектор главу № 7 романа Фрица Лейбера «Серебряные яйцеглавы», то Яндекс-детектор выдает 70% нейросетки. Ха. Ха. Ха." - то я проверю, и при положительном результате извинюсь и признаю, что этот детектор нельзя использовать в качестве инструмента.
А до тех пор предпочту считать, подтвержденных облыжных обвинений "Яндекс-детектора" в использовании нейросети пока нет.
Возражение второе. "Я пишу сам, но потом всего лишь прошу Дипсик сделать корректорскую правку - а тексту ставят 70% и меня объявляют нейрописателем!".
Резонное возражение. Давайте проверять.
Проверять я решил на своих художественных книгах. Я им не делал корректуру нейросеткой, поэтому они вполне годятся.
Первая глава «В бой идут»
Проверка на Яндекс-детекторе без корректуры. Вердикт - "Этот тест сгенерирован нейросетью с вероятностью 0,65%".
Дипсик делает корректуру, включая "устранение стилистических повторов и шероховатостей". Скорректированный текст несу шайтан-машине.
Вердикт после корректуры – 1,16%
Глава 2. До корректуры – 0,0%, после корректуры – 0,96%
Глава 3. До - 0,00%, после – 0,35%.
После свистка судьи на замену "В бой идут" выходит первый том «Куда идем мы».
Глава 1 до корректуры – 0,00%, после корректуры – 0,00%
Глава 2 – 0,00% и 0,00%
Глава 3 – 0,23% и, вы будете смеяться, 0,00%
Вы можете сказать мне - конечно! У тебя там и править-то нечего! Но не все такие грамотные и не все так чисто пишут еще в черновике! А им как быть? Не править книги? Платить корректору вместо бесплатного Дипсика?
Резонно! - почесал затылок я и решил оторваться на все деньги.
Для третьего теста я взял завалившийся в недра моего компьютера текст древней китайской бесконечной новеллы "Мир онлайн" автора Sheng Xiao.
Этот немного облагороженный машинный перевод я много лет назад скачал с "Рулета", да так и забыл стереть.
Уж там-то правки будет - не разгрести, те, кто читал "переводы" Кента не дадут соврать!
Погнали!
1 глава «Перезагрузка». Вердикт шайтан-машины до любых правок – 0,00%. Судя по всему, машинный перевод десятых годов шайтан-арба нейросетью не считает.
Даже Дипсик малость прифигел от поставленной задачи: "Мы видим запрос на корректорскую правку первой главы другой книги. Текст на русском, но чувствуется влияние машинного перевода с китайского или английского (например, "Оуян Шо", "Сун Хэйтар", "Бин'эр", "Земля Онлайн", специфические обороты). Нужно исправить орфографию, пунктуацию, стилистику, сделать текст более литературным, устранить явные ошибки и неестественные фразы. Поскольку это корректура, а не художественный перевод, сохраняем имена и термины, но правим грамматику и синтаксис".
Знаете, сколько шайтан-машина выписала первой главе после корректуры?
Все те же 0,00%
Глава 2 «Соседка». Было 0,00%, после корректуры стало – 0,46%
И тут мне в голову пришла интересная мысль и я попросил Дипсика сделать этой главе глубокую редакторскую правку.
Он согласился и вот что натворил, дальше цитата:
_________________
1. Перестройка предложений — убраны длинные, неестественные конструкции, типичные для подстрочника (например: «Оуян Шо не стал ее дразнить, вместо этого он подошел, сел на диван…» → «Оуян Шо не стал её дразнить. Он сел на диван…»).
2. Замена штампов и канцеляризмов — «в поле зрения», «двукратно подтвердить», «выразить свою признательность», «провести весь день» заменены на живые обороты.
3. Устранение логических нестыковок — уточнено, что Бин’эр «только что исполнилось восемь» (вместо «в этом году исполнилось восемь лет» — это почти одно и то же, но звучит естественнее). Также поправлено: «она носила розовую одежду, и невозможно было удержаться, чтобы не потискать» — переделано.
4. Диалоги — сделаны более живыми, убраны излишние вежливые «вы» при обращении к соседке после знакомства (оставлены только первое обращение).
5. Заголовок — «Сожительство» изменён на «Соседка» (более точно передаёт суть и без негативной коннотации).
6. Ритм и абзацы — длинные абзацы разбиты на более короткие, текст стал легче читаться.
7. Имена — везде выдержано единообразие: Оуян Шо, Бин’эр, Сунь Сяоюэ (иногда просто Сяоюэ).
8. Термины — сохранены «Сиафон», «Скайнет», «кредиты». Добавлено пояснение про Сиафон (персональный компьютер) — в первом появлении, чтобы читатель не гадал.
_____________
Знаете, сколько процентов выписал Яндекс-детектор после такой редактуры?
1,55%
Конечно же, я запросил редактуру и первой главы.
После этой редактуры имевшийся ноль вырос до 2,66%
Третья глава. «Создание персонажа».
Оригинальный словопомол - 0,00% нейроконтента.
После корректуры – 0,51%
После глубокой редактуры – 1,85%
Из чего я делаю вывод, что ни корректура нейросетей, ни даже их редактура практически не поднимает процент изначально оригинальному тексту в нейроопределителе Яндекса.
Если загружаемому тексту шайтан-машина сразу выписывает высокий процент, текст почти наверняка действительно написан ИИ.
А "испортить его корректурой" можно разве что дав Дипсику задание "переписать все от и до своими словами".
Кстати, почему нет? Попросил переписать своими словами третью главу машинного перевода.
Дипсик задание выполнил, главу несказанно улучшил, после чего еще и предупредил: «Это не редактура, а именно пересказ — с изменённой структурой, другими оборотами, но с сохранением всей фактуры и духа главы. Если хотите, могу так же переписать любую другую главу».
После пересказа процент подскочил до 17.12%
Возражение третье.
Один автор заявил, что его высокий процент, скорее всего, объясняется тем, что новые главы он надиктовывает на телефон, а поскольку текст после расшифровки аудио идет сплошным массивом, почти без знаков препинания и с кучей ошибок, то он отдает его на исправление соцсетям.
А шайтан-машина потом ему рисует 100% нейронки.
Мне стало интересно - неужели все действительно так печально?
Уже много лет, еще с журналистской поры для расшифровки интервью и прочего аудио я пользуюсь программой Speech2Text и, клянусь вам - горя не знаю. Это не реклама, это мои настоящие впечатления.
Я загнал в нее три аудиофайла из имеющихся у меня на компе аудиокниг:
1 главу аудиоверсии «В бой идут»,
1 главу аудиоверсии «Куда идем мы»
и, чтобы не замыкаться только на своих файлах – 1 главу аудиоверсии сказки Джанни Родари "Голубая стрела" в исполнении Сергея Чонишвили.
Кстати - все три файла читают разные чтецы, и качество звука тоже очень разное.
Полученную расшифровку загнал в шайтан-машину по принципу «как есть». То есть не в самом приглядном виде. Примерно в таком.
Что же мы получили в итоге?
«В бой идут» как есть – 0,25%.
С Дипсиком начал новый сеанс, поскольку старый видел этот файл в оригинальном виде. Попросил сделать из этого массива нормальную главу – разбить на абзацы, исправить ошибки и т.п.
Он все сделал.
Красивая глава уехала в шайтан-машину. Результат – 0,86%
Попытка №2 - "Куда идем мы" после расшифровки - 0,00%
Красиво форматированный Дипсиком файл - 0,00%
№3 - Джанни Родари после расшифровки - 0,61%
А красивый файл получил "три баранки" - 0,00%
Выводы, можно ли таким образом испортить свой глубоко оригинальный текст, можете делать самостоятельно.
А я откланиваюсь.
Да! Чуть не забыл. Картинки для своих блогов про нейросети я ворую у Романа Прокофьева из вот с этого его весьма умного поста. Все время забываю покаяться.