Найти тему

Рейдеры утраченного HARK: воспроизводимая система выводов для науки больших данных.

Оглавление
https://stock.adobe.com/ru/search?filters%5Bcontent_type%3Aphoto%5D=1&filters%5Bcontent_type%3Aillustration%5D=1&filters%5Bcontent_type%3Azip_vector%5D=1&filters%5Bcontent_type%3Avideo%5D=1&filters%5Bcontent_type%3Atemplate%5D=1&filters%5Bcontent_type%3A3d%5D=1&filters%5Bcontent_type%3Aimage%5D=1&order=relevance&safe_search=1&search_page=1&search_type=usertyped&acp=&aco=%D0%9D%D0%B0%D1%83%D0%BA%D0%B0&limit=100&k=%D0%9D%D0%B0%D1%83%D0%BA%D0%B0&get_facets=0&asset_id=290183591
https://stock.adobe.com/ru/search?filters%5Bcontent_type%3Aphoto%5D=1&filters%5Bcontent_type%3Aillustration%5D=1&filters%5Bcontent_type%3Azip_vector%5D=1&filters%5Bcontent_type%3Avideo%5D=1&filters%5Bcontent_type%3Atemplate%5D=1&filters%5Bcontent_type%3A3d%5D=1&filters%5Bcontent_type%3Aimage%5D=1&order=relevance&safe_search=1&search_page=1&search_type=usertyped&acp=&aco=%D0%9D%D0%B0%D1%83%D0%BA%D0%B0&limit=100&k=%D0%9D%D0%B0%D1%83%D0%BA%D0%B0&get_facets=0&asset_id=290183591

Преимущество HARK расширяет рассматриваемую теоретическую и преференциальную область.

Одно из измерений по шкале HARK, проходящее от вице-виртуи до винтуи, одновременно связано со сложностью системы и расстоянием причинных действий по причинно-следственной цепочке от измеряемых переменных до рассматриваемых результатов.

Эти две шкалы тесно взаимосвязаны, поскольку системы с обширной обратной связью и сложными схемами совместного воздействия между двумя переменными величинами, как правило, имеют длинные причинно-следственные связи. Даже если причинно-следственная связь не является целью расследования, сложность системы создает трудности для всех видов моделирования.

Представили HARK-фреймворк выводов для больших, повсеместных и органических данных, где прогнозирование и пост предупреждение часто смешиваются, а обычные средства защиты работают не очень хорошо. В гибридных репродуктивно-дедуктивных условиях HARK приобретает другую эпистемологическую роль, становясь структурным элементом процесса вывода.

Сместили фокус с гипотез на модели, которые являются (более вычислимыми) формализацией гипотез и обеспечивают их эмпирическую верификацию. В парадигме, ориентированной на модель, акцент воспроизводимости меняется от способности других воспроизводить как данные, так и конкретные статистические выводы, начиная с исследования и заканчивая способностью оценивать представление реальности, теорий и обоснованности выводов научной теории.

Особо отмечая преимущества и недостатки внутренней и внешней валидации, обусловленные глобализацией данных, в рамках которой предполагаемые модели открыто транслируются и доступны для эффективной фальсификации. Одно из ограничений нашей системы состоит в том, что она может оказаться непригодной для моделей причинно-следственных связей и динамичных систем.

Модели, которые могут быть наиболее полезны для получения воспроизводимых выводов из больших органических данных, - это модели причинно-следственных связей между динамичными моделями систем и данными, и большие достижения последних лет уже требуют новых перспектив в аналитической теории.  IRIA можно считать почти HARK-твердой, поскольку она предусматривает доработку модели посредством итеративного сбора данных и надежного вывода, хотя и не рассматривает внешнюю валидацию.

Проверка моделей с помощью многих органических наборов данных служит критерием "естественного отбора" в пространстве моделей/теорий, выводимых и публикуемых научным сообществом. Само сообщество получает возможность более продуктивно работать над созданием и критической оценкой более глубокой теории, интегрирующей более сложные реалии.


    Изучение данных не должно проводиться с целью оценки гипотез, лишенных какой-либо более широкой теории, охватывающей процессы, относящиеся к рассматриваемым гипотезам. Без всеобъемлющего теоретического контекста воспроизводимая наука не может быть гарантирована. Кризис воспроизводимости часто объяснялся отсутствием прозрачности и статистической строгости, однако более глубокой проблемой является "иллюзия уверенности" ученых в отношении установленных "статистических ритуалов". 

Наука развивается благодаря сотрудничеству с учетом различных точек зрения, создавая теоретические структуры, на которых опираются более широкие группы. HARK-твердая основа для больших органических данных и может помочь открыть и связать диалог, теорию и исследование данных в гештальтовой манере. Социальные изменения заключаются в том, что кооперативные сообщества с весьма разнообразными мнениями объединяются вокруг типовых выводов, которые имеют значение либо для политики, либо для науки.

В области культуры может быть больше, чем теоретические или технические проблемы при реализации прочных рамок HARK. Культуры, которые заставляют людей с твердым мнением конкурировать с Попперианской картой, легче "срывать" ее, чем с местными, краудсорсинговыми "строить" гипотезы, модели и теории на основе краудсорсинга. Если это сообщество ученых не работает над созданием более крупной теоретической структуры, и если оно просто использует данные для сбора доказательств в поддержку и против одной гипотезы, то никакая методологическая доработка дноуглубительных работ с использованием больших данных не внесет существенного вклада в воспроизводимую науку.

HARK может привести к дноуглубительным работам, рыбному промыслу или p-хакерскому захвату данных, которые приводят к ненадлежащему манипулированию сбором данных или статистическим анализом для получения статистически значимого результата. 
Хотя термин HARK возник в результате эпистемологических дебатов, отражающих аргументы от логического эмпиризма к фальсификации негативные коннотации HARK в тенденциозности публикации и p-хакерстве стали его основным лейблом.

HARK еще не столкнулся с современной реальностью и обязанностью использовать большие, повсеместные, "органические" данные, интегрированные из множества разнообразных источников. 

 Органическая природа больших данных обычно определяется в терминах больших Vs - объем, разнообразие, скорости, правдивости — характеризующих большие размеры, неоднородности, динамичности и неопределенности. Большие данные в сочетании с беспрецедентной вычислительной мощностью потенциально могут быть использованы для выработки и проверки многих гипотез и моделей.
Большие объемы данных расширяются и эволюционируют.

Органическое свойство больших данных может сделать исследование как перспективным, так и ретроспективным, объединив исследовательские и ориентированные на гипотезы исследования в континуум, который бросает вызов методологии. Это делает классическую гипотетико-деструктивную систему неадекватной, поскольку выводы могут привести к похищениям по мере сбора данных. HARK становится неизбежным, но его можно сделать легитимным и способствовать более полной интерпретации сигналов больших данных.

Целью настоящей работы является контекстуализация HARK в исследованиях больших данных и предложение операционной основы для воспроизводимых выводов и теорий.

Подводим итоги: консенсуса по решению проблем HARK и p-хакерства в гипотетико-деструктивных рамках. Во-первых, изучается, как рекомендуемые методы, позволяющий избежать HARK. Во-вторых, контекстуализируется исследования больших данных в рамках гибридной гипотетико-деструктивной и репродуктивной теоретической парадигмы, иллюстрирующей неизбежность HARK. В-третих, описывается прочная операционная основа HARK для воспроизводимых выводов по большим данным, которая фокусируется на моделях и подчеркивает многоуровневую структуру исследования, многие реализации данных и массовое тестирование моделей, подкрепленное статистической строгостью в моделировании и многоуровневой валидации.

Термин "солидный" не означает, что HARK не может произойти, а скорее, что его появление прозрачно и является частью процесса вывода.