Классический и широко используемый набор данных (Modified National Institute of Standards and Technology) в области машинного обучения и компьютерного зрения. Состоит из большой коллекции рукописных цифр, которые были отобраны и предварительно обработаны с целью обучения и тестирования моделей машинного обучения. На протяжении многих лет этот набор данных играл важную роль в развитии методов распознавания изображений и классификации.
История и создание
Набор данных MNIST был создан в 1980-х годах группой исследователей из Национального института стандартов и технологий (NIST). В процессе создания были собраны образцы рукописных цифр из различных источников, включая сотрудников бюро переписи населения и учащихся американских средних школ.
Исходный набор данных, известный как Специальная база данных NIST19 (заменил специальные базы данных NIST 3 и 7), содержал изображения большего размера (32x32 пикселя) и включал заглавные и строчные буквы, а также цифры. В 1998 году этот набор данных был изменен и сокращен для создания известного сегодня набора данных MNIST, в котором основное внимание уделялось исключительно цифрам. Набор данных MNIST был создан Яном Лекуном, Коринной Кортес и Кристофером Берджесом, был разработан в AT&T Labs и первоначально назывался "Смешанный набор данных Национального института стандартов и технологий".
Содержание и формат
Набор данных MNIST состоит из двух основных частей: обучающего и тестового набора.
- Обучающий набор содержит 60 000 изображений рукописных цифр, по 5000 изображений на цифру (от 0 до 9). Эти изображения помечены, что означает, что с каждым изображением связана правильная цифра. Этот набор обычно используется для обучения моделей машинного обучения.
- Тестовый набор содержит 10 000 изображений, по 1000 изображений на цифру. Как и в случае с обучающим набором, изображения в тестовом наборе также помечены. Этот набор используется для оценки производительности обученных моделей.
Каждое изображение в наборе данных представляет собой изображение в оттенках серого размером 28x28 пикселей, где каждый пиксель представлен одним байтом, указывающим интенсивность пикселя от 0 (белый) до 255 (черный).
Предварительная обработка и нормализация
Набор данных MNIST прошел несколько этапов предварительной обработки, чтобы сделать его пригодным для алгоритмов машинного обучения:
- Нормализация размера. Все изображения были изменены до одинакового размера 28x28 пикселей.
- Сглаживание. Изображения были сглажены, чтобы сгладить края цифр и улучшить их внешний вид.
- Центрирование. Цифры расположены по центру изображений для обеспечения единообразного позиционирования.
- Инвариантность. Набор данных был обработан таким образом, чтобы он не зависел от поворота, масштаба и сдвига, что означает, что изменения в этих параметрах не влияют на задачу классификации.
Набор данных MNIST обладает рядом характеристик, которые делают его полезным для приложений машинного обучения:
- простая и четко определенная проблема, которую легко понять и с которой легко работать.
- достаточно велик, чтобы обеспечить хорошее представление проблемной области, но достаточно мал, чтобы им было легко управлять.
- каждый класс цифр содержит одинаковое количество примеров.
- включает в себя различные стили рукописного ввода, что создает сложную проблему для моделей машинного обучения.
Приложения набора данных MNIST
Набор данных MNIST широко используется в различных приложениях и областях исследований:
- Классификация изображений. Это основное приложение MNIST, в котором модели машинного обучения обучаются распознавать и классифицировать цифры, написанные от руки.
- Сравнительный анализ. Набор данных служит стандартным эталоном для оценки и сравнения производительности различных алгоритмов и моделей машинного обучения.
- Компьютерное зрение. MNIST внес свой вклад в развитие технологий компьютерного зрения, включая извлечение признаков, распознавание объектов и предварительную обработку изображений.
- Исследование нейронных сетей. Набор данных сыграл решающую роль в разработке и тестировании искусственных нейронных сетей, в частности сверточных нейронных сетей (CNN).
- Распознавание рукописного текста. MNIST использовался для разработки и совершенствования систем распознавания и интерпретации рукописного текста.
Производительность и проблемы
За прошедшие годы алгоритмы машинного обучения достигли впечатляющей производительности в наборе данных MNIST. Современные модели глубокого обучения, такие как CNNS, позволяют достичь уровня точности более 99% в тестовом наборе.
Однако набор данных также сопряжен с рядом проблем:
- Внутренняя сложность. Несмотря на высокие уровни точности, достижение идеальной производительности остается сложной задачей из-за внутренней изменчивости и сложности рукописных цифр.
- Переобучение. Небольшой размер изображений и относительно простая задача могут привести к переобучению, когда модели запоминают обучающие данные вместо того, чтобы изучать общие закономерности.
- Применение в реальных условиях. Несмотря на то, что MNIST является ценным эталоном, в реальных приложениях часто используются более сложные и разнообразные данные, что требует обобщения моделей за пределами набора данных.
Ограничения привели к разработке новых и улучшенных наборов данных, таких как наборы данных CIFAR-10/100, SVHN и ImageNet.
Варианты и расширения
Было создано несколько вариантов и расширений набора данных MNIST, которые предлагают дополнительные задачи и приложения:
- MNIST-M. Этот вариант вносит в изображения беспорядок на заднем плане и цвет, делая задачу классификации более сложной и реалистичной.
- Fashion-MNIST. Вместо цифр этот набор данных содержит изображения различных типов одежды, что усложняет задачу классификации.
- EMNIST. Расширяет MNIST за счет включения букв и большего разнообразия рукописных символов, увеличивая размер и сложность набора данных.
- Kuzushiji-MNIST. Фокусируется на определенном типе японской письменности, создавая уникальную задачу для моделей, обученных западным иероглифам.
- Modified MNIST. Варианты исходного набора данных включают модифицированные версии с добавлением шума, искажений или вариаций в стиле цифр, что обеспечивает более полную проверку надежности алгоритма.
Набор данных MNIST оказал значительное влияние на развитие машинного обучения и компьютерного зрения. Его простота, доступность и продуманный состав сделали его незаменимым ресурсом как для исследователей, так и для практиков. Несмотря на то, что современные модели достигли впечатляющей производительности в MNIST, набор данных продолжает служить ценным ориентиром и отправной точкой для изучения более сложных задач распознавания изображений. Вариации и расширения MNIST способствуют дальнейшему развитию и совершенствованию алгоритмов машинного обучения.