Найти в Дзене
Это был хороший блог

Генераторы текста: всё плохо, но есть надежда

Одна статья дала ключ для другой. На мой рассказ о «Зелибобе» и «Балабобе» вдруг повалил поисковый трафик по запросам о генераторах текста. Ищут даже конкретные программы для написания статей в Яндекс Дзен.

Если вдруг и на эту статью будут приходить в поисках генераторов текста, то вот несколько сервисов:

Все это так называемые бредогенераторы, рыбогенераторы и синонимайзеры. Никакой статьи они вам не сочинят, и нужны в основном веб-дизайнерам для вставки «рыбы» (шаблонного текста) в макет, либо для совсем уж безнадежных дорвейщиков и арбитражников.

Что касается «Сеогенератора», то это технология древних сеошников из 2009 год, которая даже тогда считалась убогой.

Кто захочет написать собственный генератор, на КодМедиа есть хорошая статья-обучалка. Там же есть пособие для программистов-астрологов как создать генератор гороскопов. В Дзене такие гороскопы практикуются, правда без особого успеха. В основном для создания спамных статей со ссылкой на парочку магазинов амулетов и кудесницу Васелину.

Теперь давайте сравним более-менее работающие генераторы — «Балабобу» Яндекса, ruGPT Сбера и Порфирьевича Михаила Гранкина. Первый работает на семействе алгоритмов YALM, второй на GPT-3, третий— на GPT-2.

От вас требуется задать первое предложение, а нейросети «досочиняют» текст.

Я задаю первое предложение «Расскажу, какие томаты сажаю на даче».

Порфирьевич не справился:

«Расскажу, какие томаты сажаю на даче. Семенной табак – 0, 25 грамма. Его используют только для приготовления такого же табака, который продается в канцелярских коробках. Я не такой душка, как некоторые, и не забиваю каждый месяц фунты своего семейства этим деликатесом, как это делает все остальное человечество».

Балабоба — молодец:

«Расскажу, какие томаты сажаю на даче. Лучшие сорта для открытого грунта В прошлом году выращивала томаты "Апрельские". Очень понравились, буду еще сажать.

Томаты среднеспелые, высотой до 1 м, кустик раскидистый, но не очень густой, все пасынки удалять не нужно - они потом сами отпадут.

Плоды красные, плотные, массой до 100 г, с тонкой кожицей, вкусные, сочные. Созревают в первой декаде июля - это очень удобно, потому что их можно есть уже в конце июня на столе - они совсем не перезреют».

Между вторым и третьим предложением алгоритм пропустил точку, а так текст вполне можно запускать в Дзен.

РуГПТ сгенерил очень большой текст с кучей лишнего и в целом получилась так себе:

«Расскажу, какие томаты сажаю на даче. Чтобы не ошибиться в выборе рассады, приобретаю ее с запасом, в банки по нескольку штук. Конечно, всю рассаду не закажу, а то ведь весь объем помидоров за один раз не вырастишь, но часть опробованной возьму, если кому-то нужно больше рассады.

Покупаю семена не всегда в магазинах, а чаще из рук знакомых. Я выбираю гибриды и клоны культур и сортов, которые росли у моих родственников».

У РуГПТ вышла небольшая статья, только понесло нейросеть не в ту степь.
У РуГПТ вышла небольшая статья, только понесло нейросеть не в ту степь.

Томаты и «расскажу» я выбрал неслучайно. Буквально за месяц до презентации Балабобы в Толоку стало прилетать огромное количество странных текстов из Дзена. И среди этих странных текстов много было про лучшие сорта томатов, которые некто «показывал и рассказывал». Когда явили «Зелибобу», а потом «Балабобу», стало понятно, что кто-то игрался с генерацией текстов и публиковал их в Дзене.

Видимо, хотели повторить эксперимент с англоязычной GPT-3, когда блогер две недели публиковал тексты, написанные нейронкой, и никто не догадался. Сам я подозреваю того блогера в редактировании текстов перед выкладкой, но я всех подозреваю, так что не суть.

Проигрыш «Порфирьевича» не показатель качества алгоритма в данном случае. Во-первых, его обучали на текстах Пелевина и русских классиков. А они все пьяницы, наркоманы и шизики (Настя Торшина подтвердит!). Плюс в распоряжении «Балабобы» весь индексированный Яндексом русскоязычный интернет. Откуда нейросеть и выуживает подходящие предложения. У сберовского алгоритма то же нет такого большего количества текстов для подглядывания, поэтому он работает заметно хуже.

В заключение небольшая романтическая история, написанная «Балабобой».

-2

Ночь окутала океан черным бархатным одеялом. Звезды искрами отражались в бездонной, темной воде. Океан был бескрайний и полный тайн. И луна, полная, но не греющая своим теплым светом, как бы напоминая, что впереди еще долгий путь. По крайней мере, так казалось всем.

В лунном свете на берегу стоял дом. Небольшой, добротный, с толстыми стенами и добротной крышей. На веранде горел свет, из которого доносились приглушенные разговоры. Там стояли два человека, обнявшись и тихонько беседуя. Мужчина и женщина. Было видно, что они счастливы.

Им было не важно, что их разделяют три тысячи километров. Они были вдвоем и им это нравилось.

- Я так рад! Я так счастлив! - шептал мужчина. Женщина улыбалась, чуть отстраняясь от него, чтобы видеть его лицо. И он снова возвращался к ее губам.

- Ты же знаешь, что я тоже счастлива. - она ответила, слегка отстранившись. Мужчина поцеловал ее вновь. Луна освещала их лица, делая их еще прекраснее.

-3

Текст создавался в два захода. Сначала я написал первое предложение «Ночь окутала океан черным бархатным одеялом», а нейросеть продолжила, сочинив первые два абзаца.

Потом я вставил полученный текст в поле ввода и еще раз нажал кнопку. Получилось продолжение. Если убрать косяк про три тысячи километров (герои же рядом!), то рассказ вполне адекватен. В качестве генератора воды для статей Балабоба точно подходит :)