Наиболее очевидным последствием эпохи больших массивов данных является появление новых наборов данных. Потрясающим примером такой незавершенной работы является получение ежемесячной информации о карьерном росте из более чем тридцати миллионов биографий сотрудников американских фирм для изучения влияния текучести кадров и уровня квалификации человеческого капитала на результаты деятельности фирмы. Они отмечают, что более высокая текучесть вредит доходности, что интуитивно понятно, но ранее изучалось только в гораздо меньших и, следовательно, менее обобщаемых массивах данных.
Основываясь на аналогичном подходе извлечения текста, Голощапова, Пун, Причард и Рид использовали "батарею питоновского кода и новейший алгоритм R" для выделения тем, обсуждавшихся в более чем 5000 отчётах о корпоративной социальной ответственности (КСО) более тысячи компаний из 15 европейских стран в 1999-2016 годах. Они наблюдают группирование тем на отраслевом уровне, когда, например, промышленные компании про