Найти тему
Кембрийский взрыв.

ЭСТЕТИЧЕСКАЯ ОБРАБОТКА ИЗОБРАЖЕНИЯ.

Оглавление

Полный обзор методов манипулирования изобразительной эстетикой в литературе выходит за рамки данного исследования. Большинство схем земледелия в литературе можно разделить на три основных подхода. Подходы, основанные на внимании и солености, обычно выделяют основной предметный регион на интересующей сцене в соответствии с баллами внимания или картами солености в качестве культуры изображения.

Эстетические подходы оценивают привлекательность некоторых предлагаемых кандидатских окон культур с низкоуровневыми характеристиками изображения и правилами фотографической композиции. Тем не менее, простые ручной работы не прочны для моделирования огромного эстетического пространства.

Автоматическая генерация миниатюр также тесно связана с автоматической обрезкой изображения. Huang el at. нацелены на визуальную репрезентативность и узнаваемость на переднем плане при кадрировании и изменении размера изображения для создания его миниатюры. Chen et al ставят своей целью выделить наиболее визуально значимый регион в качестве культуры изображения. Тем не менее, эстетические аспекты возделывания сельскохозяйственных культур не учитываются в этих подходах в первую очередь.

В следующем разделе мы хотим показать, что из последнего изогнутого слоя эстетической классификации CNN уже можно получить высококачественные изображения зерновых культур. Опционально эта криволинейная характеристика может быть использована в качестве входного параметра для регрессионного слоя для получения более точных данных о посеве из дополнительных данных о посеве.

Правдоподобные составы на основе глубоких моделей

Точная настройка CNN модели для задачи классификации эстетического качества может рассматриваться как процесс обучения, в ходе которого отлаженная модель пытается понять метрику эстетики изображения. Мы предполагаем, что та же самая метрика применима и к задаче автоматической обрезки изображения. Мы обсудим два возможных варианта следующим образом.

DAN-1 - оригинал без данных обрезки - без использования дополнительных данных обрезки изображения, CNN, таких как 1-столбец CNN базовый DAN-1, можно настроить для создания обрезки изображения с незначительными изменениями - удалить полностью соединенные слои. Это означает, что мы имеем полностью свернутую нейронную сеть, где входной сигнал может быть произвольного размера, как показано на рис. 18б. Последний изогнутый слой модифицированной модели имеет размерность 14×14×512, где карты характеристик 512 содержат отклики/активации, соответствующие входу.

-2

Для создания конечной обрезки изображения мы усредняем карты характеристик 512 и изменим их размер в соответствии с размером входного изображения. После этого генерируется двоичная маска, подавляющая значения карты характеристик ниже порога. Выходное окно кадрирования получается путем извлечения прямоугольника выпуклой оболочки из самой большой связанной области этой бинарной маски.

DAN-1-регрессия с данными о возделывании культур - Альтернативно, для включения дополнительных данных о возделывании {x культур i , Y культур i }i∈[1,N0 ] , где Y культур i = [x, y, ширина, высота], следуем указаниям и добавляем слой регрессии окна для получения карты по конволюционной реакции. Таким образом, можно предсказать более точное окно посевов, изучив этот расширенный регрессор на основе таких данных по урожаю с помощью функции потери эвклида:

L(W) = 1 n Xn i=1 Yb культуры i - Y культуры i 2

где Yb культуры i - это окно прогнозируемой культуры для входного изображения x культуры i.

Для изучения параметров регрессии для этого дополнительного слоя используется набор данных обрезки изображения. Yan et al для дальнейшей точной настройки. Изображения в наборе данных помечены профессиональными фотографами с помощью наземных культур.

Обратите внимание, что в каждой тренировочной складке всего несколько сотен изображений, поэтому прямая точная настройка путем простого искажения нескольких сотен входных данных до 224 × 224 × 3 может быть уязвима для переустановки. Для этого мы фиксируем веса в свернутых слоях сети регрессии DAN-1 и определяем веса только для регрессионных слоев окна посевов. Кроме того, принят подход, предусматривающий систематическое наращивание потенциала.

Во-первых, входные изображения произвольно дрожат на несколько пикселей (×5) и выполняется зеркалирование (×2). Во-вторых, мы искажаем изображения, чтобы их длинная сторона равнялась 224 и, следовательно, сохранялись их соотношения сторон. Далее масштабируем изображения с помощью шкалы C ∈ {50%, 60%, 80%, 90%}. (×4). Затем изображения в уменьшенном масштабе увеличиваются до 224 × 224 × 224 от {верхнего левого, верхнего правого, нижнего левого, нижнего правого, нижнего правого} (×4).

Наконец, мы также имеем прямое искажение входного сигнала независимо от соотношения сторон (×1). Таким образом, один учебный пример увеличивается до 5 × 2 × (4 × 4 + 1) = 170 входных экземпляров. Мы дорабатываем эту модифицированную базовую линию CNN со скоростью обучения в 10-3 дюйма, и процесс точной настройки сходится примерно в 2-ю эпоху.

Культивирование на основе эстетических изображений

Наблюдаем, что свертывающаяся реакция ванили VGG-16 (ImageNet) на распознавание объекта обычно находит точный фокус рассматриваемого объекта, а исходная 1-столбцовая CNN (DAN-1 - оригинальная для эстетической классификации качества) дает эстетически ориентированную заметную область, где и рассматриваемый объект и его состав выявляются. По сравнению с урожайностью ванили VGG-16, зерновые с нашей исходной линии DAN-1 уже способны удалять нежелательные участки, сохраняя при этом эстетически заметную часть.

Модифицированный CNN (DAN-1-регрессия) дополнительно включает эстетическую информацию о составе в свой регрессионный слой окна регрессии, который служит для уточнения координат культуры для более точного формирования культуры. Следуя тем же параметрам оценки в работах, мы используем средний коэффициент перекрытия и среднюю погрешность смещения границ для количественной оценки производительности автоматической обрезки изображения.

-3

Более высокое перекрытие и меньшее смещение между выращенной культурой и соответствующей точностью почвы указывает на более точный предиктор урожая. Непосредственное использование исходных данных DAN-1 для построения зерновых культур уже дает конкурентоспособные результаты, в то время как их точная настройка с учетом данных об урожае (регрессия DAN-1) еще больше повышает производительность и даже превосходит предыдущее, особенно с точки зрения погрешности смещения границ.

И последнее, но не менее важное, следует отметить, что подход на базе CNN к кадрированию занимает всего лишь ∼0.2 секунды для получения выходного изображения на GPU и ∼2 секунды на CPU (по сравнению с ∼11 секундами на CPU).