Найти тему

ML. Какие у данных проблемы?

Данные бывают разные. Прежде всего есть данные табличные. А ещё бывают временные ряды, изображения, тексты и разные другие типы. В табличных данных есть признаки и они делятся на категориальные, ординальные и числовые. Зная какие данные бывают можно поговорить об их проблемах. Что с ними может быть не так?

Данные могут быть не полными. Возможно заказчик потерял часть данных или не полностью их собрал, и вам передали не все данные, у вас появились пропуски в них. Может произойти так, что данные будут отсутствовать за целый период, или информация будет не о всех задачах.

Следующая проблема заключается в том что данные бывают грязными. Смешиваются форматы данных или типы признаков. Присутствует мусор, например лишняя буква, среди слов одно выступает в виде шифра и т.д.. Вполне может случится что данные просто напросто старые.

Данные могут быть плохо размечены. Для хорошей разметки нужно много времени, если время пожалели и были невнимательны ничего хорошего не получится, в данных будут ошибки и сними будет сложно работать. Здесь может сыграть роль человеческий фактор, что-то не заметили, что-то не туда вписали, где-то не проследили.

Есть ещё одна немаловажная проблема - данные с утечкой. Значит что необходимо быть осторожными и проверять, что бы не было таких признаков от которых целевая переменная зависит явно. Наличие таких признаков приведёт к тому, что модель сможет и будет всё предсказывать в условиях обучения, но в рабочих условиях будет совершенно бесполезна.

И так немного определений. Окончательно утвердим что такое разметка и утечка данных.

Разметка данных - определение правильной целевой переменной для каждого примера.

Утечка данных - в данных есть признаки, от которых явно зависит целевая переменная.

P.S. Если, нашли ошибки, недочёты или хотите дополнить сказанное, всегда рада конструктивному мнению специалистов.