Большие данные (Big Data) — направление, о котором все говорят, но мало кто хорошо в нём разбирается. Гиганты электронной коммерции, промышленные компании и информационные корпорации инвестируют в эту технологию миллиарды.
Разбираемся в вопросе: что такое «большие данные» и зачем с ними работать?
В технических кругах есть шутка, что, если для обработки данных вам недостаточно Excel 2010 на мощном ноутбуке, значит, вы имеете дело с «Большими данными». Если сказать иначе – это данные, для работы с которыми вам надо оперировать от 1 миллиона строк и от 16 тысяч столбцов на листе.
Можно взять такое определение:
«Большие данные» — наборы данных, которые настолько объёмны и сложны, что использование традиционных средств обработки невозможно. Термин обычно характеризует данные, над которыми применяются методы предиктивной аналитики или иные методы извлечения ценности из данных и редко соотносится только с объемом данных».
🕰️ История
🔵 В 2008 году журнал Nature подготовил спецвыпуск «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объёмами данных?», в котором собрал материалы о феномене взрывного роста объёмов и многообразия обрабатываемых данных.
🔵 В 2010 году появились первые продукты и решения, которые относились исключительно и непосредственно к проблеме обработки больших данных. В 2011 это понятие появилось в стратегиях IBM, Oracle, Microsoft и других гигантов.
🔵 С 2013 года большие данные как академический предмет изучаются в появившихся вузовских программах по Data Science.
💽 Сферы применения
Большие данные относятся к сквозным технологиям, потому что использоваться могут в любой сфере, где генерируется новая информация. Несколько примеров:
✅ Здравоохранение. Данные об историях болезни, комбинациях химических веществ, сочетаниях лекарственных препаратов помогают искать новые лекарства и выявлять пациентов с высоким риском заболевания.
✅ Электронная коммерция. Информация о клиенте от адреса, пола и возраста до покупок, включая средства оплаты, позволяет компаниям делать наиболее релевантные предложения.
✅ Финансовая отрасль. Банки уберегают своих клиентов от мошенников благодаря своевременному обнаружению аномалий в транзакциях.
✅ Энергетика. Предприятия энергетической отрасли строят прогнозы и превентивные модели, что помогает ремонтировать или менять то, что ещё не сломалось и не привело к отключению электричества у «половины города».
✅ Умные города. Работа с большими данными, генерируемыми датчиками «интернета вещей», а также горожанами в социальных сетях и на сайтах городских служб, помогают улучшать ситуацию на дорогах, вовремя устранять неисправности коммуникаций, предлагать лучшие решения для общественных пространств.
💰 Инвестиции
По данным Crunchbase, существует около 2,5 тысяч стартапов в области больших данных, которые суммарно привлекли $35,9 млрд. Стартапы предлагают такие сервисы, как подготовка данных, обнаружение данных, data science, продвинутая предиктивная аналитика. Некоторые из них:
🔹 «Секретный» стартап Palantir, занимающийся анализом и обработкой данных, в частности, от разведки и спецслужб, конфиденциально подал заявку на размещение акций на бирже в июле этого года. Оценка стартапа — около $20 млрд после привлечения $0,5 млрд в 2020 году.
🔹 В 2019 году сервис по анализу данных ThoughtSpot, основанный бывшими аналитиками Google, привлёк $248 млн при оценке $1,5 млрд.
🔹 В 2019 году стартап Databricks привлёк $400 млн при оценке в $6,2 млрд. Компании используют Databricks для хранения и очистки данных, чтобы сотрудники могли анализировать их и использовать в приложениях.
Важны не сами данные, а их использование. К 2027 году рынок больших данных может вырасти до $103 млрд. Бизнес продолжит вкладывать деньги в новые решения, а стартапы — привлекать средства и создавать инновационные технологии, упрощающие не только работу компаний, но и жизнь каждого человека — от покупок до ведения семейного бюджета. А параллельно с большими данными — и во многом благодаря им — развиваются технологии искусственного интеллекта.
Подписывайтесь на телеграм-канал Дока Брауна, чтобы первыми читать узнавать о знаковых новостях венчурного рынка и новых технологиях.