Статья подготовлена для студентов курса «Deep Learning. Basic» в образовательном проекте OTUS.
Для машинного обучения надо очень много данных. Их можно собирать самому (что крайне утомительно) или использовать уже готовые (что гораздо быстрее). В этой статье вы найдёте уже готовые датасеты по самым разным категориям.
Датасеты по финансам и экономике:
• Quandl. Прекрасный источник финансово-экономических данных. Пригодится для построения моделей прогнозирования экономических показателей;
• World Bank Open Data. Эти наборы данных охватывают демографическую ситуацию и включают в себя большое число индикаторов развития и экономических показателей со всего мира;
• IMF Data. МВФ публикует данные о международных финансах, валютных резервах, инвестициях, показателях долга, ценах на сырьё;
• Financial Times Market Data. Здесь вы найдёте актуальную информацию о мировых финансовых рынках, включая индексы цен на акции, валюту и товары;
• American Economic Association (AEA). Неплохой источник данных об американской макроэкономике.
Датасеты по компьютерному зрению:
• xView. Самый большой общедоступный набор воздушных снимков земли. Включает в себя изображения сцен со всего мира, аннотированные с помощью ограничительных рамок;
• Labelme. Тоже большой датасет аннотированных изображений;
• ImageNet. Датасет изображений, организованный в соответствии с иерархией WordNet;
• LSUN. Здесь изображения разбиты по сценам и категориям с частичной разметкой данных;
• MS COCO. Крупномасштабный датасет, который пригодится для обнаружения и сегментации объектов;
• COIL100. Сто различных объектов, которые изображены под каждым углом и в круговом обороте;
• Visual Genome. Здесь вы найдёте около 100 тыс. подробно аннотированных изображений;
• Google’s Open Images. Коллекция из 9 млн URL-адресов к изображениям, помеченных метками и охватывающих более 6000 категорий;
• Labelled Faces in the Wild. Набор из 13 тысяч размеченных изображений лиц людей. Пригодится для технологии распознавания лиц;
• Stanford Dogs Dataset. Включено 20 580 изображений из 120 пород собак;
• Indoor Scene Recognition. Датасет по распознаванию интерьера зданий. Включает 15 620 изображений и 67 категорий.
Датасеты для анализа тональности текста:
• Multidomain sentiment analysis dataset. Чуть устаревший датасет, включающий отзывы на товары с Amazon;
• IMDB reviews. Тоже не новый и относительно небольшой датасет для бинарного анализа тональности. Содержит 25 000 отзывов к фильмам;
• Stanford Sentiment Treebank. Стэнфордский датасет;
• Sentiment140. Популярный датасет, который содержит 160 000 твитов;
• Twitter US Airline Sentiment. Набор данных из Twitter, включающий в себя негативные, положительные и нейтральные твиты об авиакомпаниях США.
Датасеты для обработки естественного языка:
• HotspotQA Dataset. В этом датасете вы найдёте вопросы-ответы, позволяющие создавать системы для ответов на вопросы;
• Amazon Reviews. Более 35 миллионов отзывов с Amazon за 18 лет. Включают информацию о продукте и пользователе, а также оценки и непосредственно текст отзыва;
• Google Books Ngrams. Коллекция слов из Google Books;
• Blogger Corpus. Коллекция постов с Blogger. Каждый блог включает не менее 200 вхождений наиболее часто применяемых английских слов. Всего — более 600 тысяч постов;
• Wikipedia Links data. Этот датасет состоит из веб-страниц. Каждая из них включает хотя бы одну ссылку на Википедию, а текст её якоря совпадает либо похож на заголовок целевой страницы;
• Hansards text chunks of Canadian Parliament. Содержатся более миллиона пар текстовых файлов, записанных с дебатов 36-го Канадского Парламента;
• Gutenberg eBooks List. Аннотированный список электронных книг проекта «Гутенберг»;
• Jeopardy. Архив включает больше 200 тыс. вопросов с телевикторины Jeopardy;
• Rotten Tomatoes Reviews. Больше 480 тыс. рецензий с Rotten Tomatoes;
• SMS Spam Collection in English. Датасет из 5574 спам-смс на английском;
• UCI’s Spambase. Тоже большой датасет спам-писем;
• Yelp Reviews. Датасет от Yelp, включающий более 5 млн отзывов.
Датасет для автопилотов:
• Berkeley DeepDrive BDD100k. Один из наибольших датасетов для автопилотов. Включает более 100 тыс. видео с более чем тысячью часами записей вождения в различное время суток и в разных погодных условиях;
• Baidu Apolloscapes. Датасет для распознавания 26 семантически разных объектов типа машин, зданий, пешеходов, велосипедов уличных фонарей и т. п.;
• Comma.ai. Больше 7 часов езды по шоссе. В датасете содержится информация о скорости машины, GPS-координатах, ускорении, угле поворота руля;
• Oxford’s Robotic Car. Больше ста повторений одного маршрута по Оксфорду, заснятого в течение года. В датасете есть разные комбинации трафика, пешеходов, погодных условий, а также дорожные работы;
• Cityscape Dataset. Записи ста уличных сцен в пятидесяти городах;
• KUL Belgium Traffic Sign Dataset. Больше 10 тыс. аннотаций различных светофоров в Бельгии;
• LISA. Laboratory for Intelligent & Safe Automobiles, UC San Diego Datasets. Датасет со светофорами, дорожными знаками, распознанными средствами передвижения, а также траекториями движения;
• WPI datasets. Датасет для распознавания светофоров, дорожной разметки, пешеходов.
Датасет с медицинскими данными:
• MIMIC-III. В этом датасете хранятся обезличенные данные о состоянии здоровья более 40 тыс. пациентов, находящихся на интенсивной терапии. Вы найдёте демографические данные, лабораторные анализы, показатели жизнедеятельности, лекарства и многое другое.
Где ещё искать датасеты?
Поискать датасеты можно и самостоятельно, но нужно знать, где это делать. Вот несколько сервисов:
• Google Dataset Search. Вы можете искать датасеты по всему интернету, используя ключевое слово;
• Kaggle. Площадка, предназначенная для соревнований по ML, где вы найдёте множество интересных датасетов;
• UCI Machine Learning Repository. Сюда нужно заглянуть в первую очередь, т. к. это старейший источник датасетов в Сети;
• VisualData. Это датасеты для компьютерного зрения, которые разбиты по категориям. Есть возможность поиска;
• Find Datasets | CMU Libraries. Эта коллекция датасетов представлена университетом Карнеги Меллон.
По материалам статьи «The Best Public Datasets for Machine Learning and Data Science».
Собираетесь развиваться в области Deep Learning?
23 сентября в 20:00 подключайтесь к демо-уроку «Метод максимального правдоподобия» для специалистов по нейронным сетям. Вместе с преподавателем Артуром Кадуриным вы разберете, что такое правдоподобие, как оно связано с перекрестной энтропией и среднеквадратичным отклонением.