Найти в Дзене

Датасеты как наборы метаданных из открытых баз в поддержку читаемости и цитируемости публикаций

«Публикации ради публикаций» также, как и самоцитирования – это «институциональная ловушка», которую стремится преодолеть наука. Ученые проводят исследования, пишут и публикуют статьи и книги для того, чтобы их читали. Важное значение для этого имеет свободный доступ к публикациям. И если открытый доступ требует серьезного финансирования, то поисковая оптимизация и публикация в открытом доступе метаданных – массово доступная и повсеместная распространенная практика. Чтобы названия, аннотации, ключевые слова и информация об авторах способствовали диффузии знаний и популяризации научных исследований, их объединяют в датасеты, в числе которых: -CrossRef. Главный по сбору и открытому распространению метаданных о научных публикациях. Помимо свободного доступа через API раз в год выкладывают полный датасет (в 2022 - 130 миллионов публикаций, 160 gb). Датасет CrossRef - основа большинства открытых наукометрических баз. -OpenAlex. Ежемесячный полный слепок базы-наследницы Microsoft Academic Gr

«Публикации ради публикаций» также, как и самоцитирования – это «институциональная ловушка», которую стремится преодолеть наука. Ученые проводят исследования, пишут и публикуют статьи и книги для того, чтобы их читали. Важное значение для этого имеет свободный доступ к публикациям. И если открытый доступ требует серьезного финансирования, то поисковая оптимизация и публикация в открытом доступе метаданных – массово доступная и повсеместная распространенная практика.

Чтобы названия, аннотации, ключевые слова и информация об авторах способствовали диффузии знаний и популяризации научных исследований, их объединяют в датасеты, в числе которых:

-CrossRef. Главный по сбору и открытому распространению метаданных о научных публикациях. Помимо свободного доступа через API раз в год выкладывают полный датасет (в 2022 - 130 миллионов публикаций, 160 gb). Датасет CrossRef - основа большинства открытых наукометрических баз.

-OpenAlex. Ежемесячный полный слепок базы-наследницы Microsoft Academic Graph, обогащающей и сводящей открытые метаданные публикаций, авторов, организаций, источников и тематик ("концептов") в единую связанную систему. Более 240 миллионов публикаций, порядка 300 гб.

-Pubmed\MEDLINE. Важнейшая, наиболее полная и авторитетная база по медицине и биологии.

-DBLP - ведущая библиографическая база в Computer Science - публикует всё свое содержимое (публикации, конференцим, журналы и авторы) открыто в едином XML-файле, который постоянно обновляется.

-FATCAT - открытая база метаданных научных работ, которую могут редактировать все желающие, из любых областей науки.

-Semantic Sсholar - вторая по популярности после Google Sсholar база поиска литературы, открыта, содержит не только метаданные, но и сделанные искусственным интеллектом краткие выжимки из статей, а также embeddings для машинного обучения. Более 200 млн. публикаций.

-BIP! DB - открытый датасет различных метрик на основе цитирований для более 100 миллионов научных публикаций, собранный в 2021 г.

-ЕГИСУ НИОКТР - открытая база научных проектов, поддержанных российским госфинансированием, и соответствующих публикаций.

Авторское фото волгоградского ученого и фотографа Елены Попковой: https://www.saatchiart.com/account/artworks/1599809
Авторское фото волгоградского ученого и фотографа Елены Попковой: https://www.saatchiart.com/account/artworks/1599809

#инк #научныекоммуникации #наукароссии #ученые #консорциумустойчивогоразвитияитехнологическоголидерства #датасеты #экономикаданных #наукометрия #метаданные #цитирования #публикации