Для наиболее продвинутых аналитиков исключительную важность приобретает умение использовать возможности современного компьютера, в частности, предоставляемые стремительно развивающимся направлением машинного обучения. Одним из таких мощных инструментов является кластеризация данных для выявления в них скрытых закономерностей. Я зачастую прибегаю к этому приему для распределения текстовых файлов, содержащих информацию из новостных источников, по папкам в соответствии с закономерностями распределения частот слов. Для начала я организовал регулярный сбор таких данных из различных rss источников с последующей загрузкой в документную базу данных Elasticsearch. Для справки, сбор осуществляет родственный ей модуль Logstash с дополнительно установленным плагином ввода rss. Это что касается предварительной работы. В последующем по запросу из этой базы можно выгрузить любые интересующие материалы и подвергнуть их машинному анализу. Результат зависит от многих факторов, среди кот
Кластеризация (машинное обучение на вооружении у аналитика)
1 мая 20201 мая 2020
11
3 мин