Ранее мы сформировали задачу и собрали наши данные в виде структурированного DataFrame'а. Согласно нашей задумке основным признаком для модели должен быть message. Но ничего хорошего не произойдёт, если мы передадим его как есть, так как каждое сообщение уникально и чтобы найти общее мы смотрим как минимум на слова, а не на всё предложение в целом. Нужно разбить предложение на слова, чтобы алгоритм мог сравнивать сообщения на уровне слов: Но и массив слов мы не можем использовать в качестве признака для модели. Ну во первых модель не умеет работать с массивами в качестве признаков. Да и каждое сообщение содержит разное количество слов, что опять же мешает преобразовать массив в набор признаков - получится, что каждое сообщение трансформировался в разный набор признаков. Первое, что мне пришло в голову - это представить все встречающиеся слова в виде бинарных признаков, и для каждого сообщения проставить единицу напротив встречающегося слова. Получается бинарная матрица из нулей и едини
День 15: [Decision Tree #2] Подготавливаем признаки
12 июня 201912 июн 2019
110
1 мин