Введение
Астрономические комплексы будут производить петабайты данных наблюдений в 2020-х годах. Моделируемые наборы данных, созданные для планирования и интерпретации данных этих миссий, будут соответствовать этим объемам или превышать их. Добыча таких новых петабайтных наборов данных для достижения запланированных научных целей и исследования космического пространства потребует от астрономов принятия новых подходов и разработки новых инструментов.
Все более сложные критерии поиска, необходимые для идентификации интересующих объектов в миллиардных рядах каталогов, будут увеличивать время отклика на запросы. Современные статистические методы приведут к тому, что появятся способы сокращения данных, которые фактически увеличат объемы хранения. Методы визуализации, которые успешно работают в течение десятилетий, будут неадекватными в этом режиме. Существующая сетевая инфраструктура будет недостаточной для загрузки огромных объемов данных многоволновых наблюдений и моделирования, которые должны быть проанализированы совместно. Инструменты анализа необходимо будет дополнить масштабируемыми алгоритмами машинного обучения и анализа данных.
Для решения этих задач астрономам потребуется доступ к большим объемам высокопроизводительных хранилищ и высокопроизводительным вычислительным ресурсам, а также подготовка для их использования. Ученые выступают за адекватное финансирование центров обработки данных для разработки и эксплуатации "научных платформ", которые обеспечат астрономическому сообществу ресурсы для хранения и вычисления данных, необходимых для проведения анализа.
Кроме того, эти платформы должны быть подключены для обеспечения возможности проведения межцентрового анализа и обработки информации. Предоставление таких ресурсов будет основываться на неограниченном доступе к ресурсам для проведения должным образом обеспеченного резерва анализа данных, что позволит ученым изучать и осуществлять свои исследовательские идеи независимо от их собственных возможностей.
Ключевые научные цели и задачи
В 2020-е годы произойдет значительное увеличение объемов данных, получаемых от наблюдательных учреждений и в результате моделирования. В оптическом и инфракрасном диапазонах LSST, Euclid и WFIRST будут генерировать сотни петабайт данных. По радио опросы VLA, ASKAP и "МеерКАТ", а также SKA и ngVLA в конце десятилетия составят сотни петабайт. Моделирование, поддерживающее планирование и интерпретацию этих проектов, может соответствовать объемам данных или превышать их. Эти наборы данных обладают огромным научным потенциалом, который будет возрастать только при их совместном использовании. Ресурсы "больших данных" занимают центральное место в астрономических научных целях 2020-х годов. Эта важность отражена в значительной части представленных научных "белых книг", содержащих ссылки на эти наборы данных.
В заключении
Хотя научные возможности, описанные в этих "белых книгах", разнообразны, неотъемлемые (зачастую непризнанные) проблемы с данными при реализации этих возможностей являются общими проблемами, связанными с "большими данными". К ним относятся такие фундаментальные действия, как обнаружение, запрос, визуализация, загрузка, хранение, переработка, анализ, объединение и совместное использование больших массивов данных в различных архивах. Ученые описывают, как данные Gaia, WFIRST, LSST, Euclid и CASTOR могут быть объединены для точного измерения начальной функции массы звезд и соответствующей функции массы молекулярных ядер в различных формах и на разных расстояниях.
Это фундаментальные измерения, которые влияют на наше понимание эволюции звезд, эволюции галактик и образования планет. Для проведения этих измерений потребуется многоволновой, многоцентровый анализ данных визуализации на больших участках неба. Каталоги высокого уровня, составляемые в рамках проектов, вряд ли будут отвечать научным требованиям в переполненных областях с различным опытом работы, особенно в отношении расширенных базовых данных. Анализ такого большого количества пикселей создаст значительные проблемы с данными для многих пользователей.