Найти в Дзене
Новости Data Science

Где найти бесплатные и открытые наборы данных? 13 источников данных

Оглавление

Начальникам нравится слышать слово «бесплатно». Каждый хочет получить что-то даром. Хорошая новость заключается в том, что количество бесплатных данных, доступных для сбора, постоянно растет. Некоторые из них могут быть даже полезны для вашего проекта или вашей карьеры.

В чем подвох? Иногда нет никакого подвоха. Многие из приведенных ниже источников поступают от государственных органов. После того, как они закончат сбор информации, им часто очень мало стоит поделиться ею со всеми. Технически это не бесплатно, потому что вы платите за него 15 апреля. Но хорошая новость заключается в том, что бюджет вашего проекта не будет сильно ограничен.

Другие сборы данных - это тонкая форма рекламы. Все крупные облачные компании размещают различные коллекции наборов открытых данных. Вам не нужно использовать их облачные серверы, но производительность будет намного выше, если биты будут храниться в одном центре обработки данных. Облачные компании могут покупать 30-секундные ролики на Суперкубке, но такая форма рекламы - лучшая стратегия для всех.

Единственная опасность при работе с бесплатными данными состоит в том, что начальник решит, что с ними нет проблем. Часто с данными потребуется немного больше внимания с вашей стороны. Возможно, государственное учреждение, которое его собирало, любило использовать свой особый формат. Возможно, данные необходимо повторно агрегировать для ваших нужд. Есть большая вероятность, что вам нужно будет написать немного кода, чтобы заставить его работать.

Некоторые проекты данных работают как программное обеспечение с открытым исходным кодом и работают лучше всего, когда каждый вносит свой небольшой вклад. У меня на заднем дворе есть метеостанция, подключенная к сети "Personal Weather Station" которая собирает данные от почти четверти миллиона различных гражданских ученых. Участие важно, но вы сможете одновременно использовать работу всех остальных. Если ваша работа поможет в реализации этих проектов, будьте готовы потянуть за себя управление проектами.

Хорошая новость в том, что входные барьеры небольшие. Вам не нужно спрашивать разрешения, и вам не нужно просить прощения. Вот N разных уголков сети, которые можно просто загрузить и исследовать.

Data.gov

Агентство общего обслуживания (GSA) поддерживает Data.gov , большой список наборов данных, которые открыто разделяет правительство США. На момент написания этой статьи насчитывалось 210 756 записей, многие из которых принадлежат агентствам, специализирующимся на поддержке торговли ( морское , сельское хозяйство , энергетика). ). Однако нет никаких секретов от секретных агентств и ничего из Зоны 51.

Kaggle

Некоторые из источников данных - это не более чем хранилище файлов. Kaggle - это скорее культ. Они начали с более чем 50 000 различных наборов данных, а затем добавили основные инструменты (записные книжки Jupyter) для их понимания. Уже существует 400 000 различных общедоступных блокнотов, которыми поделились другие специалисты по данным, которые анализируют данные, находящиеся под ними. Вдобавок ко всему, Kaggle добавил несколько онлайн-курсов по использованию всего и смешал в некоторых соревнованиях с настоящими денежными призами.

Например, лаборатория орнитологии Корнелла предлагает 25 000 долларов лучшим классификаторам пения птиц или того, что они называют «вокализацией птиц». Инициатива Open Vaccine предоставит 25000 долларов США лучшим моделям для прогнозирования деградации РНК  , которая повлияет на вакцину COVID-19. Среди файлов CSV или JSON можно найти много серьезной работы, но если вы устанете, вы также можете немного повеселиться. Например, одна коллекция данных заполнена строками, взятыми из всех эпизодов «Звездного пути»  из шести основных сериалов.

Five Thirty Eight

Веб-сайт FiveThirtyEight посвящен репортажам с использованием обширного набора данных. По возможности они также делятся этими наборами данных, чтобы вы могли провести собственное исследование. Существуют прошлые записи их прогнозов для основных спортивных лиг, исследования социальных установок, такие как опросы мужчин, спрашивающих, что значит быть мужчиной, и, конечно же, бесконечные опросы о предстоящих политических выборах.

ЮНИСЕФ

Агентство ООН, ответственное за помощь в воспитании здоровых детей во всем мире, делится множеством наборов данных, которые полезны для всех, кто преследует те же цели. Общую картину можно найти в таких наборах данных, как Статистические таблицы «Состояние детей в мире за 2019 год»,  для тех, кто хочет отслеживать изменения численно. Более сфокусированную визуализацию можно найти в таблицах, в которых исследуется, как йодированная соль влияет на болезнь или успех начального образования .

Финансовые данные

Библиотека штата Огайо постоянно обновляет веб-страницу с указателями на некоторые из крупнейших собраний экономических и финансовых данных. Есть исторические записи наборов данных США, а также некоторые данные, собранные Всемирным банком . Некоторые требуют академической учетной записи, а некоторые бесплатны для всех.

Бейсбол

Американский спорт благословлен некоторыми болельщиками, которые достаточно хорошо разбираются в компьютерах, чтобы собрать обширные коллекции данных об игроках и результатах их игр. База данных Шона Лахмана , например, содержит полную статистику подачи и подачи за период с 1871 по 2019 год. Есть также таблицы с другими деталями, такими как статистика полей, управленческие изменения и результаты Мировой серии, которые могут быть неполными, но также могут быть для современных Эра, которая в высшей лиге бейсбола начинается с 20 века.

Проект Retrosheet был начат для того, чтобы по возможности собирать пошаговые сводки всех игр высшей лиги, и теперь он завершен до 1974 года. Если у вас есть доступ к таблице результатов из более ранней игры, проверьте список «самых разыскиваемых», чтобы посмотрим, сможете ли вы заполнить дыру. Бейсбольное бюро Чедвика поддерживает  репозиторий GitHub для данных, если вы предпочитаете.

Общество американских исследований бейсбола ведет список других источников, включая предложения от коммерческих организаций, таких как FanGraphs , Baseball Reference и  сама Высшая лига бейсбола  .

Google

Если вы просто ищете определенный набор данных,  Google Dataset Search  позволяет выполнять поиск наборов данных во всем Интернете с помощью ключевых слов. Результаты можно фильтровать по лицензии, формату данных и времени с момента последнего обновления. Некоторые из наиболее интересных наборов данных также включены в каталог общедоступных данных Google  , в котором не только перечислены источники, но и предлагаются интерактивные информационные панели. Всемирный банк, например, графики рождаемости по сравнению с ожидаемой продолжительностью жизни , и вы можете отслеживать , как это меняется на протяжении многих лет с помощью ползунка.

Веб-сервисы Amazon

Пользователи AWS, которым нужны данные, хранящиеся в корзинах S3, могут обратиться к репозиторию открытых данных на AWS или RODA. В тысячах наборов данных имеется большое разнообразие, но основными являются наборы данных из источников, с которыми AWS открыто сотрудничает, таких как Институт космического телескопа (звезды), NOAA (изображения метеорологических радиолокаторов NEXRAD) и Common Crawl (более 25 миллиард веб-страниц). Есть несколько хороших примеров, которые помогут вам начать анализ данных с использованием, конечно, сервисов AWS, таких как Lambda или Comprehend .

Microsoft

У Microsoft также есть ряд наборов данных в Azure. Городские планировщики могут ознакомиться с записями службы такси Нью-Йорка, которая отслеживает все тарифы. Экономисты и трейдеры могут просматривать записи о ценах на сырьевые товары, чтобы получить представление об инфляции и экономических изменениях. Все они готовы к анализу с помощью инструментов машинного обучения Microsoft .

Facebook

Кое-что из того, что мы храним на Facebook, является личным, потому что мы так сделали. Некоторыми делятся с друзьями. Некоторый контент полностью открыт. Facebook поддерживает исследования так называемого «графика Facebook» с помощью своего Graph API . Это не то же самое, что загрузка всего набора данных, но может быть полезно для некоторых запросов. Просто помните, что не все используют одни и те же настройки конфиденциальности, поэтому вы можете не видеть каждого человека или все сообщения.

Yelp

На веб-сайте, известном обзорами ресторанов, баров и других общественных заведений, большой объем информации содержится в общедоступном наборе данных, который вы можете изучить. Существует более восьми миллионов обзоров более чем 200 000 заведений, которые ждут, пока вы или ваш ИИ их проанализирует. Они являются хорошим источником данных для обучения обработке естественного языка и машинному обучению.

Комплект открытых данных

Биты, распространяемые сообществом Open Data Kit и его двоюродным братом ODK-X на основе JavaScript, сами по себе не являются данными. Это программное обеспечение, предназначенное для поддержки ученых и исследователей, создающих наборы данных. Код позволяет создать пользовательский интерфейс, который упрощает сбор данных непосредственными исследователями, а затем запускает рабочий процесс классификации и очистки. Инструменты используются различными организациями, поддерживающими полевые исследования, включая Всемирный проект комаров и Красный Крест

Веб-скрапинг

Не все данные хранятся в легко доступных базах данных с API. На веб-страницы встроен огромный объем информации, и данные необходимо извлекать из них с помощью некоторых умных инструментов. Этот так называемый веб-скрапинг по-прежнему является довольно хорошим методом, но может иметь юридические ограничения. Некоторые сайты запрещают его в своих условиях обслуживания, а другие отслеживают слишком много запросов от одного пользователя, а затем либо отключают пользователя, либо замедляют ответы.

Такие инструменты, как Puppeteer, упрощают запуск одной (или нескольких!) Безголовых версий веб-браузера, загрузки веб-страницы, извлечения нужных данных и повторения этого снова и снова. Теперь существуют безголовые версии для большинства основных браузеров, благодаря сообществу тестировщиков программного обеспечения, которому необходимо автоматизировать процесс тестирования. Веб-скрапинг не всегда может быть уместным, но когда он есть, он может быть самым быстрым способом получить нужные данные. Нет ничего более открытого, чем открытая сеть.