Найти в Дзене
KIBORG_NeWs

Новая система с открытым исходным кодом, разработанная для управления и обмена сложными наборами данных

Упрощение того, как ученые обмениваются данными Данные часто лежат в основе науки — исследователи отслеживают скорости, измеряют свет, исходящий от звезд, анализируют частоту сердечных сокращений и уровень холестерина и сканируют мозг человека на предмет электрических импульсов. Но часто делиться этими данными с другими учеными — или с рецензируемыми редакторами журналов, или спонсорами — сложно. Программное обеспечение может быть проприетарным и чрезмерно дорогим в приобретении. Чтобы человек мог управлять программным обеспечением и понимать его, могут потребоваться годы обучения. Или компания, которая создала программное обеспечение, могла обанкротиться. Исследовательская группа разработала систему управления данными с открытым исходным кодом, которая, как надеются ученые, решит все эти проблемы. Исследователи изложили свою систему 2 января 2020 года в журнале PLOS ONE . «Мы хотели создать формат файла и модель набора данных, которые бы инкапсулировали большинство наборов данных,
Оглавление

Упрощение того, как ученые обмениваются данными

Данные часто лежат в основе науки — исследователи отслеживают скорости, измеряют свет, исходящий от звезд, анализируют частоту сердечных сокращений и уровень холестерина и сканируют мозг человека на предмет электрических импульсов.

Но часто делиться этими данными с другими учеными — или с рецензируемыми редакторами журналов, или спонсорами — сложно. Программное обеспечение может быть проприетарным и чрезмерно дорогим в приобретении. Чтобы человек мог управлять программным обеспечением и понимать его, могут потребоваться годы обучения. Или компания, которая создала программное обеспечение, могла обанкротиться.

Исследовательская группа разработала систему управления данными с открытым исходным кодом, которая, как надеются ученые, решит все эти проблемы. Исследователи изложили свою систему 2 января 2020 года в журнале PLOS ONE .

«Мы хотели создать формат файла и модель набора данных, которые бы инкапсулировали большинство наборов данных, над которыми мы работаем, на всех инструментах в лаборатории», — сказал Филипп Грандинетти, профессор химии в Университете штата Огайо и старший автор статьи. , «Существует такая давняя проблема, распространенная среди ученых, что вы покупаете многомиллионный инструмент, и компании, которые делают этот инструмент, имеют свой собственный запатентованный формат, и делиться этим с кем-то еще — кошмар». Большие наборы данных сложно разделить Частично потому, что программное обеспечение часто является проприетарным, но также частично потому, что файлы часто бывают настолько большими, что их трудно передать по электронной почте или через облачный сервер. И даже если файлы могут быть экспортированы как тип файла, который можно использовать совместно,

Их система, которую Grandinetti и ее коллеги назвали «Базовая модель научных данных», предназначена для простого совместного использования сложных наборов данных, без массивных файлов, занимающих большую полосу пропускания и места на жестком диске, и без потери метаданных. Рассмотрим набор данных, который включает температуру воздуха, давление воздуха, скорость ветра и солнечный поток — эта система может справиться с этим. Или рассмотрите измерения и цвет света, исходящего от звезды в далекой галактике — эта система может справиться с этим.

«Вам нужен набор данных, который невероятно гибок в своей способности хранить все эти вещи в одном формате без потери информации», — сказал Грандинетти. «Итак, идея в том, что мы создали модель, которая, по нашему мнению, была достаточно гибкой, чтобы сделать это».

Команда Университета штата Огайо в сотрудничестве с профессором Томасом Восегардом из Университета Орхуса в Дании и доктором Домиником Массио из Университета Орлеана во Франции создали программное обеспечение, которое может работать на Mac или ПК. Они загрузили его в Интернет и сделали код открытым исходным кодом (то есть любой может посмотреть его, использовать и загрузить бесплатно). Публикация в PLOS ONE является преднамеренной: журнал также доступен любому, бесплатно ,

И, как надеются исследователи, система могла бы быть простым и бесплатным способом объединения нескольких типов данных в одном месте.

«Мы изучаем несколько наборов данных как ученые, и как сам ученый, я хотел бы иметь возможность получать данные из всех этих файлов и объединять их так, чтобы я мог работать с ними», — сказал Дипанш Шривастава, доктор наук. в группе Грандинетти.

«Вместо того, чтобы искать данные и извлекать их из наборов данных, если бы мы могли просто экспортировать их как этот один тип файла — как основной тип файла научных данных — мы могли бы работать в общей системе».

Ссылка: «Базовая модель набора научных данных: легкая и портативная модель и формат файла для многомерных научных данных», Дипанш Дж. Шривастава, Томас Восегард, Доминик Массио и Филип Дж. Грандинетти, 2 января 2020 г., PLOS ONE .
DOI: 10.1371 / journal.pone.0225953