4706 подписчиков

Как анализатор текста помог мне разобраться со смыслами жизни

2 ноября 20222 ноя 2022

160

3 мин

Меня, как и многих, периодически терзают мысли по поводу того, "кто я?", "чем занимаюсь?", про "что я?" и "какой я?" Этакая синхронизация с внешним миром, с теми смыслами, которые несу людям.

Решил провести интересный эксперимент. Многие ученые отмечаю, что человек в своей устной и письменной речи может неосознанно включать большое количество косвенной информации о себе, по тем словам, которые чаще всего употребляет. Проверю эту гипотезу!

Взял текст всех своих публикаций и скопировал в один большой документ - получилось более 50 страниц и более 20 тысяч слов. И вот эти ~~данные~~ big data решил проверить в анализаторах текста и сделать выводы: про что мой блог и какие смыслы я несу аудитории.

Подобные онлайн-анализаторы позволяют проверить частотность употребления слов - это самые часто употребляемые слова, сделать семантический анализ (выделение смыслового ядра). Семантическое ядро определяется путем выделения из часто встречаемых слов, существительных, которые наполняют текст смыслом. Анализаторы работают по-разному и имеют отличающийся функционал. Далее расскажу о трех сервисах и результатах их работы.

Первый сервис https://advego.com/text/seo/ - позволяет проводить анализ текста на антиплагиат и еще делать много разных интересных вещей, в том числе, проведение семантического анализа, но сервис не разрешил мне анализировать более 100 000 символов.

Результат работы сервиса на скриншоте. Семантическое ядро составили слова: работа, книга, образование, вопрос, навык. Действительно пишу про работу, образование, полезные навыки, пока все верно.

Второй сервис https://miratext.ru/ Этот сайт понравился - большой функциональностью, проглотил весь текст, дал много разной аналитики. Единственное - сервис требует регистрации и текст ставится в очередь на анализ, но еще есть платный функционал.

Результаты по частотному анализу получились очень похожими, снова: работа, человек, книга и другие. Вот тут я начал задумываться, что в анализаторах еще проскакивают слова мочь, нужно, должно. И вдруг меня посетила мысль, что чаще всего это слова, связанные с ответственностью, которая мне очень свойственна, и даже если я об этом в блоге не ~~задумывался~~ писал, из письменной речи я это исключить не могу. Ну и конечно, меня радует, тот факт, что много говорю о книгах, хотя до 30 лет не был особо читающим книголюбом.

Интересная функция - выделение словосочетаний

Еще у сервиса есть интересная функция - выделения смысловых словосочетаний (n-граммы). Некоторые слова сами по себе не способны нести смысл, а вот уже когда объединятся в словосочетание, то появляется смысл, например, мастер-класс или социальная сеть.

Тут меня почти похвалили, что пишу на понятном языке

Разбирался с этим инструментом - "текст по закону Ципфа" - показывает, как часто используются слова в соответствии с нормальностью речи естественного языка (частота употребляемости слов). Данная характеристика показывает, насколько понятен текст. Нашел в сети, что очень хороший показатель 50%, у меня получилось 48 - это радует, но еще можно повысить результаты (больше конкретики и меньше воды).

Вот это визуальный вариант часто встречаемых слов и ссылок в тексте - облако слов. Еще одна замечательная плюшка - возможность выгрузить все в виде электронной таблицы для дальнейшего анализа. Замечательный сервис мне понравился больше всего!

Третий сервис https://istio.com/ - интерфейс и функционал будет попроще, но все самое важное есть - частотный и семантический анализ.

Быстро обрабатывает текст и не требует регистрации

Результаты получились очень похожими на предыдущие, но лучше проведена работа по стоп-словам (слова, которые не несут смысловой нагрузки, а предназначены для связи слов). Список получился таким: работа, человек, книга, вопрос, команда.

Вот так понял, что я трудоголик, который пишет про книги и образование, но на самом деле я хотел посвятить свой блог именно фиксации рабочих приемов, которые помогают сделать труд в области обучения более эффективным и приятным.

Такую проверку текста сделать очень быстро и результаты получаются интересные. В качестве данных можно взять блог, личный дневник, переписку с самим собой, интервью, можно анализировать чаты (только их нужно почистить от технических данных), а затем получить количественный и качественный анализ своей устной и письменной речи. Когда я затевал этот эксперимент, даже не думал, что слово "работа" может оказаться на первом месте. Но на самом деле для меня это странно, не воспринимаю любимое дело как "работу", а вам всем желаю найти такое занятие!

Жду комментариев и подписок.