Найти в Дзене
Programming

Программное обеспечение, экономящее время в эпоху постоянно растущих данных

Резюме: Прежде чем приступать к новому исследовательскому проекту, необходимо провести тщательный и исчерпывающий обзор существующей литературы, чтобы убедиться в том, что новый проект является новым. Исследователи могут также исследовать весь объем ранее опубликованных данных по теме, чтобы ответить на новый вопрос, используя те же самые данные. Это сложная задача, особенно с учетом того, что ежегодно публикуются миллионы новых научных статей. С чего вообще начинается изучение всех этих данных? Это новое программное обеспечение может помочь. Трудно заставить людей быть в восторге от исследовательского программного обеспечения, говорит Элиза Грэмс, кандидат наук в области экологии и эволюционной биологии. Тем не менее, программное обеспечение, которое она разработала, очень интересное, и чтобы понять, почему, важно поставить себя на место исследователя. Прежде чем приступать к новому исследовательскому проекту, необходимо провести тщательный и исчерпывающий обзор существующей литератур
https://cdn.pixabay.com/photo/2020/03/13/11/52/engineer-4927728__340.jpg
https://cdn.pixabay.com/photo/2020/03/13/11/52/engineer-4927728__340.jpg

Резюме: Прежде чем приступать к новому исследовательскому проекту, необходимо провести тщательный и исчерпывающий обзор существующей литературы, чтобы убедиться в том, что новый проект является новым. Исследователи могут также исследовать весь объем ранее опубликованных данных по теме, чтобы ответить на новый вопрос, используя те же самые данные. Это сложная задача, особенно с учетом того, что ежегодно публикуются миллионы новых научных статей. С чего вообще начинается изучение всех этих данных? Это новое программное обеспечение может помочь.

Трудно заставить людей быть в восторге от исследовательского программного обеспечения, говорит Элиза Грэмс, кандидат наук в области экологии и эволюционной биологии. Тем не менее, программное обеспечение, которое она разработала, очень интересное, и чтобы понять, почему, важно поставить себя на место исследователя.

Прежде чем приступать к новому исследовательскому проекту, необходимо провести тщательный и исчерпывающий обзор существующей литературы, чтобы убедиться, что новый проект является новым. Исследователи могут также исследовать всю совокупность ранее опубликованных данных по предмету, чтобы ответить на новый вопрос, используя те же самые данные. Это сложная задача, особенно с учетом того, что ежегодно публикуются миллионы новых научных статей. С чего вообще начинается изучение всех этих данных?

"Важно найти всю необходимую информацию и не находить ее слишком много", - говорит Грэмс. Путь к такому поиску лежит через нечто, называемое систематическим обзором, который, по словам Грэмс, начинается в области медицины и общественного здравоохранения, где поддержание актуальности исследований может быть вопросом жизни или смерти.

"В этих областях существует устоявшаяся система с медицинскими тематическими заголовками, где статьи помечаются ключевыми словами, связанными с работой, но в экологии этого нет". Другие области исследований во всем научном спектре находятся в той же лодке.

Проект возник из необходимости. В процессе рецензирования Грэмс отметила, что ей не хватает статей и ключевых терминов, и была заинтересована узнать, как определить эти недостающие термины с первой попытки.

"Пока мы работали над этим программным обеспечением, мы поняли, что существует гораздо более быстрый способ делать рецензии, чем то, как это делают другие", - говорит Грэмс, - "Традиционный способ состоял в том, чтобы в основном просмотреть статьи и вытащить термин, а затем прочитать остальную часть статьи, чтобы определить больше терминов, которые можно использовать".

Даже с достаточно конкретными ключевыми словами, Грэмс отмечает, что средний систематический обзор в ее области природоохранной биологии изначально дает около 10 000 научных статей для более крупных проектов. Важно извлекать релевантную информацию, не извлекая при этом слишком много не релевантной информации.

"С каждым годом объем данных просто продолжает увеличиваться". Существуют некоторые систематические обзоры, которые, если посмотреть на количество времени, которое они заняли бы всего три года назад, заняли бы около 300 дней". Если бы те же самые обзоры проводились сегодня, то они заняли бы около 350 дней, потому что количество публикаций просто продолжает расти.

Грэмс говорит, что на хэширование идей для программного обеспечения ушло около месяца или двух, после чего она провела лето за написанием и исправлением кода. В результате получился пакет программного обеспечения с открытым исходным кодом под названием litsearchr.

Как он работает, говорит Грэмс, это то, что пользователь будет прилагать все усилия, чтобы собрать поиск в нескольких базах данных.

Грэмс говорит, что время, необходимое для разработки стратегии поиска, сократилось на 90%.

Представленные с наиболее релевантными статьями, исследователи затем имеют значительно меньше статей для ручного разбора. Сам этот этап рецензирования теперь тоже частично автоматизирован, добавляет Грэмс.

Litsearchr является частью совместных усилий исследователей, называемых metaverse, где целью является объединение нескольких пакетов программного обеспечения вместе, чтобы исследователи могли выполнять свои исследования от начала до конца на одном языке кодирования, R.

"Исследователи могут разрабатывать свои систематические обзоры, импортировать данные, и даже есть пакет, который может написать раздел с результатами для систематического обзора", - говорит Грэмс.

Грэмс и её команда настроили программу так, чтобы её мог использовать кто угодно, независимо от того, умеют они кодировать или нет, с помощью шаблонов, в которые можно загружать информацию. Также есть подробный пошаговый видеоролик, чтобы провести пользователей через этот процесс.

Сохраняя программное обеспечение с открытым исходным кодом, Грэмс говорит, что отладка и редактирование улучшается, потому что пользователи могут указывать на детали, которые требуют внимания,

"Каждый раз, когда я получаю электронное письмо, это так волнующе. Приятно иметь его открытым, потому что люди могут дать мне знать, когда есть опечатка".

В настоящее время это программное обеспечение используется исследователями в таких научных областях, как наука о питании и психология, а также для массированной проверки всех документов, касающихся популяций насекомых по всему миру. Грэмс говорит, что приятно иметь программное обеспечение на месте, чтобы иметь возможность взять на себя такой большой проект. "Мы бы ни за что не смогли сделать этот проект без уровня автоматизации, который мы получаем, используя Litsearchr". Я построила это из необходимости другого проекта, но это программное обеспечение позволяет делать еще больший анализ, чем раньше".