Если вы прочитали предыдущий пост, то тут я собрал свой образовательный трек.
1. Основы языка Python - переменные, операторы, циклы, функции, классы, декораторы и т.д.
2. Далее я начал изучать web фреймворки - Flask для начала, он простой и маленький, потом Django и в частности Django REST. Тут важно понять что такое MVC подход в разработке бекенда (Model, View, Controller) В процессе понимаешь что такое HTTP запросы, как с ними работать. Так же важно понять ORM - это когда с базой данных работаешь через обычные классы python. Очереди задач.
3. Далее стал изучать SQL - DDL и DML операции. Селекты, джоины, группировки, оконные функции. Обязательно уделить внимание типам данных, т.к. за этим стоит следить. Оптимизация запросов, CTE и прочие возможности для читаемых и быстрых селектов.
4. Позже состредоточился на работе с данными в Pandas - Группировки, функции для данных, сводные таблицы и прочие преобразования с данными.
5. ETL процессы - как организовать и управлять потоками данных. Airflow.
6. В процессе изучения баз перешел на поверхностное ознакомительное изучение стека дата инженера - распределенные файловые системы, hadoop, kafka, spark. Это отдельное большое направление, его хотя бы мельком изучить, без подробностей, просто чтобы знать что такое вот есть
7. BI системы - это всякие визуализаторы типа power bi, tableue, superset, redash, metabase
8. Clickhouse - тут просто пощупать и понять основные его концепции и фишки. Понять зачем нужны колоночные аналитические базы и какой профит от них можно получить при больших объемах данных
9. ML - базовое представление об алгоритмах, какие есть методы, как готовить данные для моделей, какие метрики качества есть, как проводить валидацию моделей. Для каких случаев, какая модель лучше подходит. Есть обучение с учителем и без. НАчать именно с учителем - KNN, линейная и логистическая регресии, метод опорных векторов, деревья решений. Это базовые.
10. Статистика - выборки, совокупности, распределения, меры изменчивости, меры центральной тенденции, дисперсия, стандартное отклонение, квантили, корреляция и т.д. Это все основа подготовки данных для ML
11. Базовые понимания аналитики разной, например, финансовые метрики, продуктовые метрики. В зависимости от того, куда хочется двигать.
12. Чуть чуть DevOps - Linux, как поднять виртуальный сервер, команды в терминале, Docker, GIT, Systemctl службы, установка пакетов и т.д.
Вобщем как-то так. Что-то из этого я знаю, что-то нет, с чем-то знаком хорошо, а с чем-то на поверхностном уровне. Всегда есть к чему стремиться