Введение
Масштабные усилия по оцифровке, предпринятые за последние два десятилетия, привели к значительному увеличению доступных в режиме онлайн коллекций изобразительного искусства.
Наличие таких коллекций позволяет легко исследовать и наслаждаться произведениями искусства, разбросанными по музеям и художественным галереям по всему миру.
Повышение наглядности оцифрованных произведений искусства особенно полезно для целей образования и исследований в области истории искусств. Помимо преимуществ повышения наглядности, сам перевод информации из области физического искусства в цифровой формат изображения играет ключевую роль в открытии новых исследовательских задач в междисциплинарной области компьютерного зрения, машинного обучения и истории искусства.
Большинство имеющихся онлайн-коллекций содержат некоторые конкретные метаданные, обычно в форме аннотаций, сделанных экспертами в области искусства.
Эти аннотации в основном содержат информацию о компьютерной классификации изобразительного искусства, основанной на извлечении различных элементов низкоуровневого изображения и их использовании для обучения различным типам классификаторов.
Однако недавние прорывы в компьютерном зрении, достигнутые глубокими Конволюционными Нейронными Сетями, демонстрируют доминирующее положение изученных функций по сравнению с техническими возможностями для многих других задач классификации изображений.
Одним из главных аргументов в пользу недавнего успеха глубоких CNN в решении задач компьютерного зрения является наличие больших наборов данных, таких как ImageNet, который состоит из более 15 миллионов изображений высокого разрешения с ручной маркировкой, охватывающих около 22 000 различных категорий объектов.
Если бы мы объединили все оцифрованные картины во всех доступных онлайн коллекциях, то количество изображений все равно было бы значительно меньше, чем количество изображений в наборе данных ImageNet и не было бы достаточно для подготовки глубоких CNN с нуля без переустановки.
Однако многие различные задачи классификации, связанные с изображениями, которые имеют дело с наборами данных ограниченного размера, смогли достичь современной эффективности классификации, доработав предварительно обученные CNN в ImageNet наборы данных до нового целевого набора данных или задачи.
Это побудило нас изучить, как CNN, прошедшие предварительную подготовку по фотографическим изображениям, могут быть точно настроены для решения специфических задач изобразительного искусства, таких как стиль, жанр или распознавание художника.
В этой статье мы изучаем, как различные стратегии тонкой настройки могут быть использованы для различных задач классификации, связанных с искусством.
Зная, что меньшее расстояние между исходным и целевым доменами приводит к лучшей производительности при выполнении новой задачи, мы изучаем влияние различных весовых параметров инициализации, используя CNN с одинаковой архитектурой, но предварительно обученные для различных доменов и задач.
Сменив область источников обучения, мы пытаемся выяснить, как различные задачи и весовые инициализации на основе данных влияют на производительность точно настроенных CNN для конкретных задач и может ли это указывать на семантическую взаимосвязь между ними.
Помимо инициализации веса, мы также рассматриваем некоторые другие аспекты процесса тонкой настройки, такие как количество слоев, проходящих переподготовку.
Базы данных и задачи классификации
С целью включения как можно большего количества картин, а также для охвата широкого спектра классификационных задач, мы используем три различных источника для создания наших наборов данных и идентификации классификационных задач.
Наш первый источник - WikiArt, крупнейшая в настоящее время в Интернете коллекция оцифрованных картин.
WikiArt - это хорошо организованная коллекция, которая объединяет широкий набор метаданных, таких как художник, стиль, жанр, национальность, техника и т.д. Она включает произведения искусства широкого периода времени, с особым акцентом на 19-й и 20-й век, а также современное искусство. Из-за своей обширности WikiArt часто выбирается для создания наборов данных во многих недавних исследованиях, посвященных вопросу классификации живописи, и поэтому подходит для сравнения результатов.
Набор данных постоянно растет и включает в себя различные виды произведений искусства, такие как картины, скульптуры, иллюстрации, эскизы, фотографии, плакаты и т.д.
На момент сбора данных в набор данных WikiArt входило в общей сложности 133 220 произведений искусства. Однако, чтобы быть последовательным в отношении вида произведения искусства и, следовательно, более приемлемым.
Всего мы определили четыре классификационные задачи, выполненные в базе данных WikiArt: жанр, стиль, художник и национальность художника. Признание художника, жанра и стиля живописи - три общепринятые задачи, но задача классификации картин по национальности художника, насколько нам известно, еще не решена и представляет собой интересный вызов.
В ней исследуется взаимосвязь между произведениями искусства разных художников, жанров и периодов времени, но принадлежащими к одному и тому же национальному художественному контексту.
Основываясь на количестве и распространении изображений, а также на количестве классов, использованных в предыдущих работах, мы определяем подмножество классов для каждой задачи.
В частности, для классификации художников мы используем подгруппу из 23 художников, где каждый из них представлен не менее 500 картинами.
Для стиля мы используем группу из 27 классов, где каждый класс имеет более 800 картин, для жанра - 10 классов, где каждый класс имеет более 1880 картин, а для национальностей мы используем подгруппу из 8 классов с не менее 3200 образцов на класс.
Кроме того, мы исследуем другой онлайн-источник картин - Веб-галерею искусств (WGA). Эта коллекция не так широко используется, как набор данных WikiArt, и имеет различное историческое распределение картин, охватывающее изобразительное искусство 8-19 века, с достаточно широким выбором средневековых и возрожденных произведений искусства.
Как и в массиве данных WikiArt, картины помечены жанром, историческим периодом, школой и временными рамками (через 50 лет), в которых художники были активны.
Коллекция содержит различные виды произведений искусства, и для этой цели мы использовали 28 952 картины. Исходя из имеющихся метаданных, мы определили следующие задачи для классификации: художник, жанр, национальность (школа) и временные рамки.
Временные рамки задачи классификации можно считать наиболее схожими с задачами классификации стилей, поскольку стиль обычно связан с художественным движением, действующим в определенный период времени.
Однако распределение временных рамок WGA определяется 50-летним периодом, который может включать частично совпадающие художественные направления, и поэтому не может рассматриваться как строгий эквивалент задачи классификации стилей.