Как я оптимизировал инструменты для анализа семантики: технические детали, кейсы и выводы из стрима
Всем привет! С вами на связи автор надстройки !SEMTools для Excel Дмитрий Тумайкин. Вчера (20 марта 2024) я провел стрим, где подробно разобрал обновления своих инструментов для работы с CSV-файлами и кластеризации семантики. Если вы пропустили — вот запись: В этой статье — структурированный пересказ с акцентом на технические нюансы, примеры и выводы. Поехали! Исходные CSV-файлы из Букварикса содержат избыточность: каждый запрос повторяется 9-15 раз (по числу доменов в выдаче). Например, для Москвы размер файла достигал 90 ГБ в UTF-8.
Формат вывода одной ключевой фразы до оптимизации:
"купить пуф", 1500, 300, 10000, hof...