Преимущество HARK расширяет рассматриваемую теоретическую и преференциальную область.
Одно из измерений по шкале HARK, проходящее от вице-виртуи до винтуи, одновременно связано со сложностью системы и расстоянием причинных действий по причинно-следственной цепочке от измеряемых переменных до рассматриваемых результатов.
Эти две шкалы тесно взаимосвязаны, поскольку системы с обширной обратной связью и сложными схемами совместного воздействия между двумя переменными величинами, как правило, имеют длинные причинно-следственные связи. Даже если причинно-следственная связь не является целью расследования, сложность системы создает трудности для всех видов моделирования.
Представили HARK-фреймворк выводов для больших, повсеместных и органических данных, где прогнозирование и пост предупреждение часто смешиваются, а обычные средства защиты работают не очень хорошо. В гибридных репродуктивно-дедуктивных условиях HARK приобретает другую эпистемологическую роль, становясь структурным элементом процесса вывода.
Сместили фокус с гипотез на модели, которые являются (более вычислимыми) формализацией гипотез и обеспечивают их эмпирическую верификацию. В парадигме, ориентированной на модель, акцент воспроизводимости меняется от способности других воспроизводить как данные, так и конкретные статистические выводы, начиная с исследования и заканчивая способностью оценивать представление реальности, теорий и обоснованности выводов научной теории.
Особо отмечая преимущества и недостатки внутренней и внешней валидации, обусловленные глобализацией данных, в рамках которой предполагаемые модели открыто транслируются и доступны для эффективной фальсификации. Одно из ограничений нашей системы состоит в том, что она может оказаться непригодной для моделей причинно-следственных связей и динамичных систем.
Модели, которые могут быть наиболее полезны для получения воспроизводимых выводов из больших органических данных, - это модели причинно-следственных связей между динамичными моделями систем и данными, и большие достижения последних лет уже требуют новых перспектив в аналитической теории. IRIA можно считать почти HARK-твердой, поскольку она предусматривает доработку модели посредством итеративного сбора данных и надежного вывода, хотя и не рассматривает внешнюю валидацию.
Проверка моделей с помощью многих органических наборов данных служит критерием "естественного отбора" в пространстве моделей/теорий, выводимых и публикуемых научным сообществом. Само сообщество получает возможность более продуктивно работать над созданием и критической оценкой более глубокой теории, интегрирующей более сложные реалии.
Изучение данных не должно проводиться с целью оценки гипотез, лишенных какой-либо более широкой теории, охватывающей процессы, относящиеся к рассматриваемым гипотезам. Без всеобъемлющего теоретического контекста воспроизводимая наука не может быть гарантирована. Кризис воспроизводимости часто объяснялся отсутствием прозрачности и статистической строгости, однако более глубокой проблемой является "иллюзия уверенности" ученых в отношении установленных "статистических ритуалов".
Наука развивается благодаря сотрудничеству с учетом различных точек зрения, создавая теоретические структуры, на которых опираются более широкие группы. HARK-твердая основа для больших органических данных и может помочь открыть и связать диалог, теорию и исследование данных в гештальтовой манере. Социальные изменения заключаются в том, что кооперативные сообщества с весьма разнообразными мнениями объединяются вокруг типовых выводов, которые имеют значение либо для политики, либо для науки.
В области культуры может быть больше, чем теоретические или технические проблемы при реализации прочных рамок HARK. Культуры, которые заставляют людей с твердым мнением конкурировать с Попперианской картой, легче "срывать" ее, чем с местными, краудсорсинговыми "строить" гипотезы, модели и теории на основе краудсорсинга. Если это сообщество ученых не работает над созданием более крупной теоретической структуры, и если оно просто использует данные для сбора доказательств в поддержку и против одной гипотезы, то никакая методологическая доработка дноуглубительных работ с использованием больших данных не внесет существенного вклада в воспроизводимую науку.
HARK может привести к дноуглубительным работам, рыбному промыслу или p-хакерскому захвату данных, которые приводят к ненадлежащему манипулированию сбором данных или статистическим анализом для получения статистически значимого результата.
Хотя термин HARK возник в результате эпистемологических дебатов, отражающих аргументы от логического эмпиризма к фальсификации негативные коннотации HARK в тенденциозности публикации и p-хакерстве стали его основным лейблом.
HARK еще не столкнулся с современной реальностью и обязанностью использовать большие, повсеместные, "органические" данные, интегрированные из множества разнообразных источников.
Органическая природа больших данных обычно определяется в терминах больших Vs - объем, разнообразие, скорости, правдивости — характеризующих большие размеры, неоднородности, динамичности и неопределенности. Большие данные в сочетании с беспрецедентной вычислительной мощностью потенциально могут быть использованы для выработки и проверки многих гипотез и моделей.
Большие объемы данных расширяются и эволюционируют.
Органическое свойство больших данных может сделать исследование как перспективным, так и ретроспективным, объединив исследовательские и ориентированные на гипотезы исследования в континуум, который бросает вызов методологии. Это делает классическую гипотетико-деструктивную систему неадекватной, поскольку выводы могут привести к похищениям по мере сбора данных. HARK становится неизбежным, но его можно сделать легитимным и способствовать более полной интерпретации сигналов больших данных.
Целью настоящей работы является контекстуализация HARK в исследованиях больших данных и предложение операционной основы для воспроизводимых выводов и теорий.
Подводим итоги: консенсуса по решению проблем HARK и p-хакерства в гипотетико-деструктивных рамках. Во-первых, изучается, как рекомендуемые методы, позволяющий избежать HARK. Во-вторых, контекстуализируется исследования больших данных в рамках гибридной гипотетико-деструктивной и репродуктивной теоретической парадигмы, иллюстрирующей неизбежность HARK. В-третих, описывается прочная операционная основа HARK для воспроизводимых выводов по большим данным, которая фокусируется на моделях и подчеркивает многоуровневую структуру исследования, многие реализации данных и массовое тестирование моделей, подкрепленное статистической строгостью в моделировании и многоуровневой валидации.
Термин "солидный" не означает, что HARK не может произойти, а скорее, что его появление прозрачно и является частью процесса вывода.