Последнее десятилетие значительно возрос объем собираемых данных. Контент создается благодаря социальным сетям, мессенджерам, видеохостингам... Разобраться в этом потоке данных поможет дата-грамотность.
Собираемые данные позволяют формировать персональные рекомендации для покупки товаров, фильмов, музыки и показа рекламы; строить прогнозы о поведении пользователей для вывода на рынок новых продуктов и услуг.
Таким образом, для выпускников вуза становятся важными навыки дата-грамотности (Data Literacy). Уже мало быть просто "продвинутым пользователем ПК" и указывать это в резюме.
Джордан Морроу, автор книги "Как вытащить из данных максимум. Навыки аналитики для неспециалистов" определяет дата-грамотность, как способность читать данные, работать с ними, анализировать их и общаться на языке данных.
Может быть, дата-грамотность нужна только техническим специалистам?
Мы все привыкли, что программирование никак не связано с гуманитарными исследованиями, но в мире довольно много происходит в области цифровой гуманитаристики (Digital Humanities): визуализация исторических данных, анализ и распознавание текстов (компьютерная лингвистика) и т. д. Стимулом к развитию цифровой гуманитаристики являются открытые данные, доступные для свободного скачивания и исследования: в России, кстати говоря, Министерство культуры является лидером по открытию данных.
Широкий интерес к дата-грамотности обусловлен в том числе появлением ряда свободных программных продуктов. Наиболее популярные из них - Python, R и Julia. Каждый из них имеет многочисленные библиотеки и отзывчивое сообщество пользователей. Перечисленные программы позволяют организовать весь цикл обработки данных: сбор, предобработку (очистку), анализ и представление результатов.
Тут стоит отметить, что важен не только софт, который используется для работы с данными, но и правильная организация сбора, хранения и представления данных.
Приведу несколько рекомендаций, которые смогут сэкономить время исследователя данных.
– Уделяйте внимание именам директорий и файлов, следуйте единому соглашению: отдельно храните код, данные и рисунки.
– Используйте выразительные имена, которые описывают, что содержит директория или файл.
– Избегайте пробелов в именах, вместо них можно использовать символ нижнего подчеркивания или тире.
– Возможность сортировки и поиска файлов обеспечивает нумерация в именах, например, 01-pic.jpg, 02-pic.jpg и т. д.
– Используйте имена в нижнем регистре.
– Создайте пронумерованные директории, которые охватывают этапы процесса исследования данных, например:
/student-project
/01-code-scripts
/02-raw-data
/03-processed-data
/04-graphics-outputs
/05-paper
Помните, что одного идеального примера организации директорий не существует.
– Документируйте свой проект на каждом этапе (удобно использовать формат Markdown).
– Используйте текстовые форматы, не зависящие от операционной системы и программных продуктов, такие как .csv, .txt или .json.
Дата-грамотность тесно связана с понятием открытой воспроизводимой наукой.
Открытая наука предполагает доступность научных методов, данных и результатов. Она включает в себя:
– прозрачность методов сбора, обработки и анализа данных;
– общедоступные данные и связанные с ними методы обработки;
– прозрачное сообщение результатов.
Воспроизводимая наука предполагает, что любой (включая других и автора в будущем) может понять и воспроизвести шаги анализа, примененные к тем же или даже новым данным.
Вместе открытая воспроизводимая наука позволяют делиться работой и сотрудничать с другими исследователями, а также открыто публиковать свои данные и рабочие процессы, чтобы способствовать расширению научных знаний.
Каким образом навыки дата грамотности внедряются в СПбГЭУ?
Один из проектов, реализуемый в нашем Университете - Метанавыки, которые приобретают учащиеся бакалавриата и магистратуры через выбор дисциплин, выстраивая собственный маршрут обучения, согласно приоритету по балльно-рейтинговой системе и наличию дисциплин-пререквизитов.
Состав Метанавыков включает дисциплины, развивающие цифровые навыки, куда входят: "Информационные технологии и средства работы с данными", "Инструментальные средства анализа данных", "Язык программирования Python", "Применение информационных систем 1C" и т.д.
Дата-грамотность открывает широкие перспективы для исследователей. Практиковать перечисленные навыки можно при написании курсовых и выпускных квалификационных работ.
--
начальник отдела анализа данных СПбГЭУ
Дмитрий Федоров