Я наткнулся на статью TheCode.media, в конце которой приводится готовый код для построения облака слов из текста. Чем чаще слово встречается в тексте - тем оно больше на картинке.
Код делит слова на три категории: существительные, прилагательные, глаголы. Получается довольно любопытно - можно посмотреть кто о чем пишет.
Например, политолог Шульман в телеграм канале пользуется вот таким лексиконом:
Артемий Лебедев привык к другому инструментарию:
Маяковский естественно выделяется своим вайбом:
При этом я ни разу не программист, и все манипуляции с кодом мне помог совершить chatgpt. Благо теперь порог входа в программирование упал до минимума, и решать какие-то мелкие бытовые задачки может каждый: обработать данные, написать скрипт или закодить тг бота.
Дальше я расскажу по шагам, чтобы любой человек мог построить собственное облако и начать прогать вместе с chatgpt.
Python, код, chatgpt
Начинаем с нуля и спрашиваем гпт, как вообще запустить готовый код то?
Всё понятно, скачиваем питон с официального сайта и выбираем среду разработки. Я остановился на pycharm, в статье thecode.media использовали vs code. Создаем новый проект и пуляем туда код из статьи. Вставляем путь до файла с нашим текстом в строку "f =" И ловим первую ошибку:
Несем её в гпт:
Говорит, что мы должны либо использовать двойную косую черту, либо добавить в начале буковку "r". Пробуем:
Новая ошибка, точно также несем её в гпт:
Говорит, нам нужна библиотека (модуль) pymorphy2, которую мы ставим через командную строку windows - pip install pymorphy2:
Снова запускаем код и ставим все библиотеки аналогично, пока не появится новая ошибка:
Ругается на кодировку файла. Пересохраняем текстовый файл в обычном блокноте с указанием кодировки utf-8:
Пробуем снова. О, чудо!
Как выгрузить данные из ВК или Телеграм
Запросить архив Вконтакте можно по ссылке :
https://vk.com/data_protection?section=rules&scroll_to_archive=1
Архив будет готов в течение суток и будет содержать html файлы. В папке messages будут диалоги со всеми пользователями. Папка имеет название ID чата, который можно посмотреть в url диалога с пользователем.
Из телеграма можно также выгрузить весь архив через Settings->advanced->export data. Либо выгрузить из чата или канала:
Формат лучше выбирать json.
Теперь нам нужно вытащить из этих файлов текст. Вы теперь знаете, как заставить Chatgpt написать код, конвертирующий файлы)
Ставьте ему задачу так, чтобы понял и ребенок. Что нужно? Как именно? Какие входные данные? Какие условия? Иногда приходится подсказывать ему логику обработку данных. Все ошибки скармливаем ему же и стоим на своем, пока он не напишет рабочий код. Также его можно попросить объяснить логику кода, отдельную функцию и так далее.
Я уже это сделал и у меня есть код для обработки html из ВК и json из ТГ. Сюда код не выкладывал, ибо сильно мельтешит. Внизу поста в тг он есть: https://t.me/change_me_world/25
Если пост понравится, в следующую раз расскажу, как с помощью chatgpt закодить телеграм бота на google app script бесплатно. Бот будет работать на гугловском сервере, и в него можно заложить любую логику в отличие от конструкторов ботов. Хоть админские функции, хоть игровые, хоть маркетинговые.