Найти в Дзене

Датасеты для машинного обучения

Оглавление
Статья подготовлена для студентов курса «Deep Learning. Basic» в образовательном проекте OTUS.

Для машинного обучения надо очень много данных. Их можно собирать самому (что крайне утомительно) или использовать уже готовые (что гораздо быстрее). В этой статье вы найдёте уже готовые датасеты по самым разным категориям.

Датасеты по финансам и экономике:

Quandl. Прекрасный источник финансово-экономических данных. Пригодится для построения моделей прогнозирования экономических показателей;

World Bank Open Data. Эти наборы данных охватывают демографическую ситуацию и включают в себя большое число индикаторов развития и экономических показателей со всего мира;

IMF Data. МВФ публикует данные о международных финансах, валютных резервах, инвестициях, показателях долга, ценах на сырьё;

Financial Times Market Data. Здесь вы найдёте актуальную информацию о мировых финансовых рынках, включая индексы цен на акции, валюту и товары;

American Economic Association (AEA). Неплохой источник данных об американской макроэкономике.

Датасеты по компьютерному зрению:

xView. Самый большой общедоступный набор воздушных снимков земли. Включает в себя изображения сцен со всего мира, аннотированные с помощью ограничительных рамок;

Labelme. Тоже большой датасет аннотированных изображений;

ImageNet. Датасет изображений, организованный в соответствии с иерархией WordNet;

LSUN. Здесь изображения разбиты по сценам и категориям с частичной разметкой данных;

MS COCO. Крупномасштабный датасет, который пригодится для обнаружения и сегментации объектов;

COIL100. Сто различных объектов, которые изображены под каждым углом и в круговом обороте;

Visual Genome. Здесь вы найдёте около 100 тыс. подробно аннотированных изображений;

Google’s Open Images. Коллекция из 9 млн URL-адресов к изображениям, помеченных метками и охватывающих более 6000 категорий;

Labelled Faces in the Wild. Набор из 13 тысяч размеченных изображений лиц людей. Пригодится для технологии распознавания лиц;

Stanford Dogs Dataset. Включено 20 580 изображений из 120 пород собак;

Indoor Scene Recognition. Датасет по распознаванию интерьера зданий. Включает 15 620 изображений и 67 категорий.

Датасеты для анализа тональности текста:

Multidomain sentiment analysis dataset. Чуть устаревший датасет, включающий отзывы на товары с Amazon;

IMDB reviews. Тоже не новый и относительно небольшой датасет для бинарного анализа тональности. Содержит 25 000 отзывов к фильмам;

Stanford Sentiment Treebank. Стэнфордский датасет;

Sentiment140. Популярный датасет, который содержит 160 000 твитов;

Twitter US Airline Sentiment. Набор данных из Twitter, включающий в себя негативные, положительные и нейтральные твиты об авиакомпаниях США.

Датасеты для обработки естественного языка:

HotspotQA Dataset. В этом датасете вы найдёте вопросы-ответы, позволяющие создавать системы для ответов на вопросы;

Amazon Reviews. Более 35 миллионов отзывов с Amazon за 18 лет. Включают информацию о продукте и пользователе, а также оценки и непосредственно текст отзыва;

Google Books Ngrams. Коллекция слов из Google Books;

Blogger Corpus. Коллекция постов с Blogger. Каждый блог включает не менее 200 вхождений наиболее часто применяемых английских слов. Всего — более 600 тысяч постов;

Wikipedia Links data. Этот датасет состоит из веб-страниц. Каждая из них включает хотя бы одну ссылку на Википедию, а текст её якоря совпадает либо похож на заголовок целевой страницы;

Hansards text chunks of Canadian Parliament. Содержатся более миллиона пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента;

Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг»;

Jeopardy. Архив включает больше 200 тыс. вопросов с телевикторины Jeopardy;

Rotten Tomatoes Reviews. Больше 480 тыс. рецензий с Rotten Tomatoes;

SMS Spam Collection in English. Датасет из 5574 спам-смс на английском;

UCI’s Spambase. Тоже большой датасет спам-писем;

Yelp Reviews. Датасет от Yelp, включающий более 5 млн отзывов.

Датасет для автопилотов:

Berkeley DeepDrive BDD100k. Один из наибольших датасетов для автопилотов. Включает более 100 тыс. видео с более чем тысячью часами записей вождения в различное время суток и в разных погодных условиях;

Baidu Apolloscapes. Датасет для распознавания 26 семантически разных объектов типа машин, зданий, пешеходов, велосипедов уличных фонарей и т. п.;

Comma.ai. Больше 7 часов езды по шоссе. В датасете содержится информация о скорости машины, GPS-координатах, ускорении, угле поворота руля;

Oxford’s Robotic Car. Больше ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасете есть разные комбинации трафика, пешеходов, погодных условий, а также дорожные работы;

Cityscape Dataset. Записи ста уличных сцен в пятидесяти городах;

KUL Belgium Traffic Sign Dataset. Больше 10 тыс. аннотаций различных светофоров в Бельгии;

LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets. Датасет со светофорами, дорожными знаками, распознанными средствами передвижения, а также траекториями движения;

WPI datasets. Датасет для распознавания светофоров, дорожной разметки, пешеходов.

Датасет с медицинскими данными:

MIMIC-III. В этом датасете хранятся обезличенные данные о состоянии здоровья более 40 тыс. пациентов, находящихся на интенсивной терапии. Вы найдёте демографические данные, лабораторные анализы, показатели жизнедеятельности, лекарства и многое другое.

Где ещё искать датасеты?

Поискать датасеты можно и самостоятельно, но нужно знать, где это делать. Вот несколько сервисов:

Google Dataset Search. Вы можете искать датасеты по всему интернету, используя ключевое слово;

Kaggle. Площадка, предназначенная для соревнований по ML, где вы найдёте множество интересных датасетов;

UCI Machine Learning Repository. Сюда нужно заглянуть в первую очередь, т. к. это старейший источник датасетов в Сети;

VisualData. Это датасеты для компьютерного зрения, которые разбиты по категориям. Есть возможность поиска;

Find Datasets | CMU Libraries. Эта коллекция датасетов представлена университетом Карнеги Меллон.

По материалам статьи «The Best Public Datasets for Machine Learning and Data Science».

Собираетесь развиваться в области Deep Learning?
23 сентября в 20:00 подключайтесь к демо-уроку «Метод максимального правдоподобия» для специалистов по нейронным сетям. Вместе с преподавателем Артуром Кадуриным вы разберете, что такое правдоподобие, как оно связано с перекрестной энтропией и среднеквадратичным отклонением.