Шум – записи в наборе данных, не укладывающиеся в ту или иную концепцию Классификации (Classification). Такие Наблюдения (Observation) вызваны человеческой ошибкой при создании Датасета (Dataset) или иными причинами.
Реальные данные имеют ряд факторов, которые могут повлиять на вероятность появления шума. Его существование – неизбежная проблема, но это поддается решению.
Люди склонны совершать ошибки при сборе данных, а инструменты могут быть ненадежными: это и приводит к ошибкам. Шум в Модели (Model) Машинного обучения (ML) может вызвать проблемы, поскольку Алгоритм (Algorithm) интерпретирует такие записи как закономерность и начнет обобщать на основании имеющихся данных.
Зашумленный набор наносит ущерб всему Пайплайну (Pipeline). Зашумленность измеряется как отношение чистых данных – сигнала к шуму. Существует много методов, используемых для искоренения шума.
Анализ главных компонент
Анализ главных компонент (PCA) — это арифметический метод, преобразующий потенциально коррелирующие переменные в несвязанные. Термин «главные компоненты» относится именно к ним.
PCA пытается устранить искаженные данные из сигнала, сохраняя при этом важные функции. Это геометрический и статистический метод, который уменьшает размерность входного сигнала или данные, проецируя их по различным осям.
Чтобы лучше понять, представьте, что точка в измерении XY проецируется вдоль оси X. Плоскость шума — ось Y теперь можно удалить. Это явление получило название Понижение размерности (Dimensionality Reduction). В результате, путем исключения осей, содержащих зашумленные данные, анализ главных компонент может минимизировать шум во входных данных.
Глубокое шумоподавление
Существуют так называемые "автокодировщики", крайне полезные для шумоподавления. Поскольку их можно обучить распознавать обнаружение шума в сигнале или данных, их можно использовать в качестве шумоподавителей, передавая им зашумленные данные и получая на выходе чистые. Автокодировщики состоят из двух частей: кодировщик, который как бы шифрует входные данные, и декодер, который преобразует информацию обратно в читаемое состояние.
Шумоподавляющий автокодировщик делает две вещи: он кодирует вводные данные, сохраняя при этом как можно больше деталей. Он также устраняет шум.
Сравнительный датасет
Предположим, вам нужно очистить зашумленный набор данных. Используя подход адаптивного шумоподавления, в этом методе используются два сигнала: один является целевым, а другой — свободным от шума.
Преобразование Фурье (Fourier Transform)
Исследования показали, что если наш сигнал имеет структуру, то мы можем удалить из них шум напрямую. Преобразование Фурье (Fourier Transform) используется именно для этого.
Если мы разложим сигнал на частотные зоны, то заметим, что большая часть информации о сигнале во временной области представлена всего несколькими частотами. Поскольку шум непредсказуем, он будет рассеиваться по всем.
Согласно теории, мы можем отфильтровать большую часть зашумленных данных, сохранив частоты, содержащие наиболее важную информацию. Таким образом можно удалить зашумленные сигналы из набора данных.
Автор оригинальной статьи: deepchecks.com