Наиболее очевидным последствием эпохи больших массивов данных является появление новых наборов данных. Потрясающим примером такой незавершенной работы является получение ежемесячной информации о карьерном росте из более чем тридцати миллионов биографий сотрудников американских фирм для изучения влияния текучести кадров и уровня квалификации человеческого капитала на результаты деятельности фирмы.
Они отмечают, что более высокая текучесть вредит доходности, что интуитивно понятно, но ранее изучалось только в гораздо меньших и, следовательно, менее обобщаемых массивах данных.
Основываясь на аналогичном подходе извлечения текста, Голощапова, Пун, Причард и Рид использовали "батарею питоновского кода и новейший алгоритм R" для выделения тем, обсуждавшихся в более чем 5000 отчётах о корпоративной социальной ответственности (КСО) более тысячи компаний из 15 европейских стран в 1999-2016 годах.
Они наблюдают группирование тем на отраслевом уровне, когда, например, промышленные компании проявляют большую озабоченность по поводу безопасности сотрудников, а потребительские компании всё больше вовлекаются в такие темы, как "упаковка пищевых продуктов".
Хотя такие результаты могут показаться читателю интуитивно понятными, именно отношение этих "статистических данных большого объёма" к экономическим результатам представляет собой более глубокую привлекательность науки о финансовых данных.
Thng представляет собой такой документ, в котором информация, извлеченная из текста, соотносится с аномальными результатами. Сначала она приводит тон 647 первичных публичных размещений акций (IPO) американских компаний, использующих четыре отдельных подхода к оценке настроений.
Она считает, что IPO, проведенное при поддержке VC, имеет менее оптимистичный тон, и объясняет это озабоченностью по поводу риска судебных разбирательств. Тем не менее, этот оборонительный язык, как представляется, не препятствует эффективности.
Напротив, по данным Thng, IPO, проведённые при поддержке венчурных компаний, значительно превосходят IPO, проведённые без поддержки венчурных компаний, в более отдалённой перспективе. Менее ожидаемое, но ни в коей мере не менее интересное применение новых наборов данных в науке о финансовых данных предлагает Kumar et al.
Авторы получили доступ к достаточно уникальному собственному набору данных: более пяти миллионов банковских счетов с 250 миллионами транзакций, принадлежащих клиентам старше 70 лет. Такие пожилые клиенты могут стать жертвами мошенничества и, следовательно, их защита снижает операционный риск крупного финансового учреждения, предоставившего данные на условиях анонимности.
Используя как логистическую регрессию, так и методы классификации (машины с векторами поддержки), авторы разрабатывают новую модель предупреждения, которая значительно превосходит по точности фактический статус-кво. Помимо того, что данный документ является важным научным вкладом и в практическом плане представляет собой значительное снижение операционного риска, он также получил весьма положительную оценку Wall Street Journal.
Наряду с изучением новых наборов данных, постоянно увеличивающийся объём информации в век больших данных также позволяет глубже изучить ранее игнорировавшиеся исследовательские вопросы, либо путём сбора большого количества различных индивидуальных наборов данных, либо путём более глубокого погружения в ранее менее прозрачные темы анализа.
Известным примером очень большой коллекции наборов данных является исследование Московицем и Педерсеном импульса временных рядов в 58 видах защиты безопасности. Аналогичным образом, исследование рисков Коттера и Суурлаха по различным классам активов: к ним относятся кредитный риск, фондовый риск, риск процентных ставок, риск межбанковской ликвидности и риск рынка недвижимости, и они считают, что побочные эффекты между ними обусловлены рынками акций и недвижимости, что подтверждает особую роль, которую они играют с точки зрения финансовой стабильности.
Если говорить более конкретно, то они сравнивают денежные авуары не включённых в листинг фирм с авуарами включённых в листинг фирм и ожидают, что не включённых в листинг фирм будут в большей степени руководствоваться принципом предосторожности и поэтому будут иметь больше денежных средств.
Другой категорией ранее менее изученных объектов анализа являются продукты, которые существуют только как следствие больших массивов данных и гораздо более быстрых вычислительных возможностей обработки. Одним из классов таких продуктов являются биржевые торговые фонды (ETF). Изучение конкретной версии ETF показывает, что полупараметрические подходы к оценке риска могут работать лучше, чем гауссовские подходы в обратном тестировании ожидаемого дефицита.
Таким образом, теоретический вклад Джексона в этот специальный выпуск является весьма своевременным, поскольку разработка новых тестов и методов расширяет инструментарий, доступный учёным для проведения анализа данных.