Проклятие размерностей – одна из крупнейших проблем Машинного обучения (Machine Learning), которая гласит: чем выше размерность, тем более разреженны данные. Иными словами, по мере роста количества признаков объем данных, которые нам нужно обобщить, растет экспоненциально. Пример. Легко поймать гусеницу, движущуюся в трубе (1 размер). Собаку сложнее поймать, если она бегает по самолету (два измерения). Гораздо труднее охотиться на птиц, у которых теперь есть дополнительное измерение, в которое они могут перемещаться...
Задача снижения размерности в машинном обучении (ML) Задача снижения размерности в машинном обучении сводится к уменьшению числа признаков набора данных. Наличие в наборе избыточных, неинформативных признаков снижает эффективность модели. После снижения размерности модель упрощается, а размер набора данных в памяти уменьшается. Ускоряется работа алгоритмов машинного обучения. На практике приходится работать с данными очень больших размерностей. Изображения размером 224×224 пикселей или данные финансовых изменений во времени представляются в виде векторов. Исследователю нужна простая и понятная визуализация и скорость для расчетов. Где применяется: 🔹 распознавание изображений, 🔹 банковские транзакции, 🔹 аналитика больших данных. Основные методы: 🔹 Метод главных компонент (PCA) 🔹 Метод k-средних (K-Means) 🔹 Линейный дискриминант Фишера (LDA) 🔹 Стохастические вложение соседей (t-SNE) При подготовке текста использовали источник: ссылка 👉@aisimple