Около трех лет назад я технически ассистировал экспериментальному проекту. Мне было очень интересно - а что будет, если начать брать любой текст, переводить его Яндекс-транслейтом на татарский и постить в Дзен-Канал?
Будет ли просто очень большое число некачественных публикаций достаточным, чтобы
1) на существовавшем тогда движке яндекса, управляя браузерами скриптом, сделать очень много просмотров статей канала, но каждой статьи - по 10-20 просмотров, суммарно наберя на монетизацию
2) потом, просто показывая случайным людям, или заинтригованных корявостью татарского в статьях или забавным сочетанием русских и татарских слов, чтобы они переходили и были какие-то переходы и просмотры.
3) и посмотреть, сможет ли огромное число статей оказать влияние на модель Яндекса, что рассчитывает популярность их и повлиять на популярность настоящих статей на татарском других авторов.
4) посмотреть, сможет ли один человек, но очень оснащенный технически, сделать что-то, оказать влияние на технологии блоггинга, где объем текста влияет на машинное обучение рекомендательного движка и тп.
Что я сделал? Создал аккаунт из-под новой почты )
1. Написал скрипт на Java, который гулял по чужим статьям в Дзен и собирал переходы с одних на другие, выстраивая очередь на перевод и карту переходов
2. При помощи библиотеки Selenium я забрасывал текст, выкопированный со статей в гугл-транслейт, выкопировал текст переведенного и как бы набирал его текстом, вводя посимвольно в поле редактирование. В месте, где в оригинале были картинки, вставлял картинку и ссылку на нее из оригинальной статьи. В конце встатвлял ссылку на оригинал публикации.
3. Очень сразу выяснилось, что если "писать" так более 5 статей в день, то вылезает капча. И тут мне на помощь пришли нейросети. Я написал настольное приложение, что при вылете капчи поверх всех окон кидало мне окошко для ввода ее с картинкой. Картинку я сохранял и правильное разгаданное значение тоже. Когда их набралось несколько сотен, я написал LSTM нейросеть на deeplearning4j (да, это нестандартный прием к распознаванию картинок, но капча - это всего лишь 70 каналов пикселей в ряд, LSTM тоже справляется), и она прежде чем кинуть мне картинку на распознание, пыталась вводить распознанный текст из нее сама, а мне кидала в случае неуспеха распознания. На самом деле, успех был где-то 60% распознаний самое большое, но потом, похоже, капчи стали повторяться, видать Яндекс сгенерил их ограниченное количество, и как-то я редко стал вводить данные вручную. Я порадовался такому примитивному, но самостоятельному применению нейросетей )
4. 10 браузеров, управляемых Selenium не парясь, с моего же IP просто ходили по статьям, кликали, лайкали.
И вот, канал набрал 13 тысяч статей и нужное число просмотров для монетизации. Т.к. суммарно статей было много и по ним переходы были, мои же. Я загрузил паспортные данные мамы, тк. она была самозанятой уже тогда, и направился на модерацию "монетизации".
Через день мне написала техподдержка Яндекса, что по их правилам (я их читал до и вроде этого не было), манипуляции при помощи автоматизации запрещены, и короче вот. Доказательств что это именно манипуляции они не предоставили, а я не предоставил, что это была именно ручная работа, просто некачественная такая. В итоге, канал даже набрал каких-то 6рых подписчиков и лежит себе, "украшает" яндекс-дзен.
Я прошу всех моих верных подписчиков подписаться на него и посмотреть, как дальше поведут себя рекомендательные движки Яндекса. Дело в том, что тут 13 тысяч статей на плохом татарском, но на очень разные тематики. Было бы интересно смотреть, научится ли Яндекс рекомендовать в итоге статьи не на русском ))
Адрес канала - "https://dzen.ru/profile/editor/doenyadakuepnaersaebeldem"
Т.е. "Дөньяда күп нәрсә белдем" - "Много что в мире узнал", отсылка сами знаете к чему )
И до кучи предлагаю подписаться на канал https://dzen.ru/yalchik - про интересные географические явления Среднего Поволжья!