Найти тему
Властелин машин

Интеллектуальное преобразование строк в формат даты и времени

Преобразование входных строк в формат даты и времени стоит в основе подготовки данных для ряда моделей машинного обучения. В этой статье рассмотрим инструментарий Pandas, позволяющий решить указанную задачу.

Всю самую сложную работу сделает за вас функция to_datetime. Можно попытаться запустить ее без дополнительных параметров, тогда формат передаваемых строк она определит самостоятельно:

Однако, такой способ не очень надежен, так как не совсем понятно как интерпретировать вторую строку (год в начале или в конце?). Поэтому рекомендую применять функцию с параметром format, в котором передавать "пояснительную" строку с описанием формата передачи даты и времени:

-2

Обратите внимание на параметр errors='coerce', который заменяет нераспарсенные даты на NaT. По умолчанию мы бы получили исключение:

-3

Следует отметить, что служебные обозначения для параметра формата можно найти здесь:

-4

Еще интересна комбинация параметров unit и origin, которая позволяет задать единицы времени и дату начала отсчета. По умолчанию, origin=‘unix’, что инициирует отсчет с 1970-01-01. А в параметре unit могут указываться такие единицы как День (D), секунда (s), миллисекунда (ms), микросекунда (us), наносекунда(ns):

-5
-6

-7