Преобразование входных строк в формат даты и времени стоит в основе подготовки данных для ряда моделей машинного обучения. В этой статье рассмотрим инструментарий Pandas, позволяющий решить указанную задачу.
Всю самую сложную работу сделает за вас функция to_datetime. Можно попытаться запустить ее без дополнительных параметров, тогда формат передаваемых строк она определит самостоятельно:
Однако, такой способ не очень надежен, так как не совсем понятно как интерпретировать вторую строку (год в начале или в конце?). Поэтому рекомендую применять функцию с параметром format, в котором передавать "пояснительную" строку с описанием формата передачи даты и времени:
Обратите внимание на параметр errors='coerce', который заменяет нераспарсенные даты на NaT. По умолчанию мы бы получили исключение:
Следует отметить, что служебные обозначения для параметра формата можно найти здесь:
Еще интересна комбинация параметров unit и origin, которая позволяет задать единицы времени и дату начала отсчета. По умолчанию, origin=‘unix’, что инициирует отсчет с 1970-01-01. А в параметре unit могут указываться такие единицы как День (D), секунда (s), миллисекунда (ms), микросекунда (us), наносекунда(ns):