Как правило все начинается с данных. Данные могут быть в абсолютно разном формате, например в виде csv-файлов (достаточно распространённый случай).
Прежде чем двигаться дальше убедитесь, что вы зарегистрированы в kaggle и у вас установлен CLI клиент kaggle - <ссылка на kaggle нарратив>
Подробнее о том, что это такое можно почитая здесь.
Возьмём небольшой набор данных о студентах в формате CSV (comma separated values).
Читаем данные с помощью shell команд
Первое, что логично было бы сделать - посмотреть что это за данные. Сделать это можно по-разному. Самое простое это выполнить shell команду по отображению содержимого файла и Jupiter позволяет запускать shell команды прямо из ноутбука:
Читаем данные встроенными средствами Python
Далее мы определенно захотим данные как-то использовать, например для Data Exploratory Analysis (визуализировать данные на графиках, поискать проблемы, фичи, аномалии). Чтобы иметь возможность применять различные Python функции, хорошо бы прочитать файл в какую-нибудь структуру данных Python, например список.
Некоторые функции работы с файлами встроены в stdlib Python:
Далее можем строки разделить по символу запятой и получим двумерный массив распаршенных данных:
Pandas и DataFrame
Таблица - это наиболее распространненая форма текстовых данных. По хорошему было бы неплохо иметь возможность обращатся к колонкам по имени, иметь возможность более эффективной выборки и загрузки данных. Такая структура реализована в библиотеке Pandas и называется DataFrame. Эта библиотека настолько распространена, что многие ML framework'и умеют работать именно с Pandas'овскими DataFrame'ами.
Код чтения из CSV файла в DataFrame выглядит так:
Pandas "из коробки" умеет парсить csv и json. Так же можно создать DataFrame вручную.
Вместо заключения
DataFrame'ы Pandas дают много возможностей, например, по фильтрации и выборке данных. Вместо того, чтобы продолжить наполнять свой буффер информацией о наличии тех или иных фич Pandas, мы остановимся, осмыслим то, что узнали сегодня и вернемся к фичам Pandas по мере их прикладного использования дальше.