Найти тему
128 подписчиков

В data science я тоже пока могу немного:


разобрала статистику на уровне обывателя, т.е. знаю что такое процентили, нормальное распределение, не путаю медиану с модой, ну и если сильно припечет, то могу работать с z-таблицами. Для освоения линейной регрессии понадобилась еще среднеквадратичная ошибка, ее тоже умею считать.

научилась подчищать данные (ой, простите, делать датасет консистентным), пока что просто заменяю прописные буквы на строчные, пробелы на нижнее подчеркивание, а пустые значения на 0 или среднее по столбцу. Для некоторых метрик умею добавлять отдельные столбцы с подсчетами, переводить значения с выбором в числа.

сладенькое. освоила линейную регрессию, понимаю, что стоит за транспонированием, умножением и инвертированием матрицы (нельзя с матрицами=таблицами_данных обходиться как с Х в уравнениях, чтобы из левой части перетащить в правую, нужно сделать шаманскую последовательность изменнений над матрицей, а не просто разделить на Х правую часть).

в связи с этим попробовала сделать что-то на kaggle, получилось. Первое соревнование на выживание пассажиров Титаника линейной регрессией предсказало 75%. Потом улучшила до 77%. Но оказалось, что такой тип заданий лучше решать логистической регрессией, которую я пока не знаю. В очередной раз записалась на отборочные в школу по ML, чтобы получить материалы для подготовки. Опять говорят, что нужно много высшей математики, которая самостоятельно пока не изучается.

#ML #путь_дао_саентиста
1 минута