И откуда берутся данные для построение моделей машинного обучения?
Сканеры, кассы, мобильные, камеры безопасности и ERP системы постоянно посылают данные в компании, которые ими владеют. На входе эта информация сырая и неструктурированная. Чтобы привести её в порядок, в больших компаниях есть специальные люди, которые создают хранилище данных в виде таблиц и витрин. Части единого хранилища могут различаться по быстродействию и тематике: из-за этого на первый взгляд простой анализ может оказаться муторной работой по собиранию данных в течение месяца из разных источников. Всегда следите за тем, откуда у вас данные и чем вы кормите своё машинное обучение и нейросети.
Чаще всего данные попадают по следующей схеме:
Далее информация обрабатывается и попадает в базу данных, из которой она достаётся чаще всего с помощью SQL-запросов (они работают быстрее всего). Пример SQL-запроса ниже: