Найти тему
СПбГЭУ

Зачем нужна дата-грамотность?

Последнее десятилетие значительно возрос объем собираемых данных. Контент создается благодаря социальным сетям, мессенджерам, видеохостингам... Разобраться в этом потоке данных поможет дата-грамотность.

Собираемые данные позволяют формировать персональные рекомендации для покупки товаров, фильмов, музыки и показа рекламы; строить прогнозы о поведении пользователей для вывода на рынок новых продуктов и услуг.

Таким образом, для выпускников вуза становятся важными навыки дата-грамотности (Data Literacy). Уже мало быть просто "продвинутым пользователем ПК" и указывать это в резюме.

Джордан Морроу, автор книги "Как вытащить из данных максимум. Навыки аналитики для неспециалистов" определяет дата-грамотность, как способность читать данные, работать с ними, анализировать их и общаться на языке данных.

Может быть, дата-грамотность нужна только техническим специалистам?

Мы все привыкли, что программирование никак не связано с гуманитарными исследованиями, но в мире довольно много происходит в области цифровой гуманитаристики (Digital Humanities): визуализация исторических данных, анализ и распознавание текстов (компьютерная лингвистика) и т. д. Стимулом к развитию цифровой гуманитаристики являются открытые данные, доступные для свободного скачивания и исследования: в России, кстати говоря, Министерство культуры является лидером по открытию данных.

Широкий интерес к дата-грамотности обусловлен в том числе появлением ряда свободных программных продуктов. Наиболее популярные из них - Python, R и Julia. Каждый из них имеет многочисленные библиотеки и отзывчивое сообщество пользователей. Перечисленные программы позволяют организовать весь цикл обработки данных: сбор, предобработку (очистку), анализ и представление результатов.

Тут стоит отметить, что важен не только софт, который используется для работы с данными, но и правильная организация сбора, хранения и представления данных.

Приведу несколько рекомендаций, которые смогут сэкономить время исследователя данных.

– Уделяйте внимание именам директорий и файлов, следуйте единому соглашению: отдельно храните код, данные и рисунки.

– Используйте выразительные имена, которые описывают, что содержит директория или файл.

– Избегайте пробелов в именах, вместо них можно использовать символ нижнего подчеркивания или тире.

– Возможность сортировки и поиска файлов обеспечивает нумерация в именах, например, 01-pic.jpg, 02-pic.jpg и т. д.

– Используйте имена в нижнем регистре.

– Создайте пронумерованные директории, которые охватывают этапы процесса исследования данных, например:

/student-project
/01-code-scripts
/02-raw-data
/03-processed-data
/04-graphics-outputs
/05-paper

Помните, что одного идеального примера организации директорий не существует.

– Документируйте свой проект на каждом этапе (удобно использовать формат Markdown).

– Используйте текстовые форматы, не зависящие от операционной системы и программных продуктов, такие как .csv, .txt или .json.

Дата-грамотность тесно связана с понятием открытой воспроизводимой наукой.

Открытая наука предполагает доступность научных методов, данных и результатов. Она включает в себя:

– прозрачность методов сбора, обработки и анализа данных;

– общедоступные данные и связанные с ними методы обработки;

– прозрачное сообщение результатов.

Воспроизводимая наука предполагает, что любой (включая других и автора в будущем) может понять и воспроизвести шаги анализа, примененные к тем же или даже новым данным.

Вместе открытая воспроизводимая наука позволяют делиться работой и сотрудничать с другими исследователями, а также открыто публиковать свои данные и рабочие процессы, чтобы способствовать расширению научных знаний.

Каким образом навыки дата грамотности внедряются в СПбГЭУ?

Один из проектов, реализуемый в нашем Университете - Метанавыки, которые приобретают учащиеся бакалавриата и магистратуры через выбор дисциплин, выстраивая собственный маршрут обучения, согласно приоритету по балльно-рейтинговой системе и наличию дисциплин-пререквизитов.

Состав Метанавыков включает дисциплины, развивающие цифровые навыки, куда входят: "Информационные технологии и средства работы с данными", "Инструментальные средства анализа данных", "Язык программирования Python", "Применение информационных систем 1C" и т.д.

Дата-грамотность открывает широкие перспективы для исследователей. Практиковать перечисленные навыки можно при написании курсовых и выпускных квалификационных работ.

--

начальник отдела анализа данных СПбГЭУ
Дмитрий Федоров