Найти тему

Wordpress, ИИ и Я: Приключения в Парсинге, или Как я Накормил Телеграм Свежим Контентом

Каждое утро начинается одинаково: Толик, моя персональная чайка-будильник, прилетает на подоконник и начинает концерт. Его репертуар? "Орать на всю улицу", – мастер-класс по будильникам для продвинутых. Я просыпаюсь не от звонка телефона, а от звуков, которые можно сравнить разве что с криками фанатов на футбольном матче. Но, как ни странно, это меня не раздражает. Ну, может, только немного. Толик – как кофе по утрам: раздражает, но веселит и заряжает энергией.

Однажды утром, попивая чашку кофе и по обыкновению просматривая ленты новостей в телеграм, меня посетила мысль создать парсер, который бы собирал информацию с англоязычных сайтов и делал бы автоматизированный перевод, чтобы мой канал пополнился актуальным и интересным контентом.

Погрузившись в мир парсинга, и анализ возможных источников я сделал интересный вывод: большенство англоязычных сайтов, которые я планировал использовать в качестве источников работают под управлением CMS Wordpress. Отлично, теперь дело за малым, 30 минут работы и у меня уже простенький парсер - собирает заголовки, тексты статей и ссылки на встроенные картинки и записываем в простенькую базу. Что теперь? Теперь нужно переводить. Хотя зачем переводить все подряд - это дополнительное время на обработку. Статьи бывают длинные 10-15 тыс символов и даже больше 20 тыс. Так можно долго ждать пока обработаю хотя бы один источник. Решил переводить заголовки и уже список заголовков передать нейронке, пусть работает, переводит. Хотя? А опять же зачем переводить потенциально не интересные и не нужные мне заголовки? Так решил немного модифицировать промпт и добавить в него еще и анализ "интересности" для моей аудитории и соответствие моей тематике.

В итоге после нескольких дней настройки и тестирования, моя система начала выдавать первые результаты. И, вот здорово, они были очень неплохи! Мой ИИ парсер собирал заголовки, анализировал их и выдавал мне список самых подходящих. Я только выбирал, какие статьи из готовой выборки уже стоит перевести и превратить в посты для канала. Хотя можно и полноценные статьи, но это уже позже.

Но тут я столкнулся с новой проблемой: качество переводы. Признаюсь я этих пор верил в магию автоматических переводов, как ребёнок в Деда-Мороза. Первые попытки были смешными – мой парсер выдавал не переводы, а жалкую несвязную пародию на них. Но после нескольких доработок промптов для более качественного перевода, тексты начали звучать уже близко к оригиналу.

Теперь каждое утро, сидя за чашкой кофе и слушая арии Толика, я просматривал список заголовков, которые мой парсер считал интересными. Выбрав самые лучшие, я командовал выбирал какие статьи перевести и сделать из них краткие выжимки. Эти выжимки и становились основой для моих утренних постов, которые, к моему удивлению, стали встречать все более теплые отклики от подписчиков.

Одно только мене не нравилось - приходилось менять формулировки, дописывать, но самое на мой взгляд главное, не всегда были картинки и приходилось делать их подборку. И вот тут я понял, что нужно добавить в мой парсер еще и интеграцию с Midjourney (как не крути, но пока самая лучшая нейронка для картинок), погрузился в поиск API и какое было мое удивление когда я понял, что его просто пока нет))) Все что предлагается - сторонние платные решения. И тогда я понял, что передо мной новая интересная задача.

Чтобы быть в теме автоматизации, новостей искусственного интеллект, парсинга и лайфхаков в Python подписывайтесь на мой Телеграм канал "Мамкин Автоматизатор"

И об этом я рассажу в следующей статье.

#ИИ #ChatGPT #Midjourney #Wordpress #парсинг