Компьютерное зрение возникло как подполе информатики и электротехники в 1960-х годах.
Двумя основными мотивами для исследований в области компьютерного зрения являются разработка алгоритмов для решения проблем со зрением, а также понимание и моделирование зрительной системы человека.
Оказывается, найти удовлетворительные ответы на любой из этих мотивов значительно сложнее, чем предполагалось изначально. Исследования в области компьютерного зрения продолжаются и по сей день. Большая часть исследований в области компьютерного зрения и распознавания образов сосредоточена на разработке решений проблем со зрением.
В этой главе будут рассмотрены вопросы с этой точки зрения. Существует много исследователей, которые заинтересованы в человеческой зрительной системе, с сотрудничеством между исследователями в области компьютерного зрения, неврологии и психофизики. Вопросы эмпирической оценки также важны в этой области, но мы не рассматриваем непосредственно этот вид исследований в данной главе.
Благодаря исследованиям, проводимым в течение трех десятилетий, и наличию мощных и недорогих компьютеров, существует общее убеждение, что компьютерное зрение способно обеспечить надежные решения.
К сожалению, для большинства приложений не существует методов проверки соответствия алгоритмов компьютерного зрения заявленным требованиям.
Также нет возможности измерить производительность алгоритмов или надежно определить современное состояние решения конкретной проблемы.
При отсутствии общепринятых методов эмпирической оценки работы алгоритмов, достижения в алгоритмах компьютерного зрения должны естественно оцениваться по другим критериям. Такие критерии могут включать такие соображения, как концептуальная элегантность, сложность используемых математических методов и вычислительная сложность алгоритма.
К сожалению, концептуальная элегантность и изощренность математики не обязательно позитивно коррелируют с производительностью алгоритма в применении.
Если использование более сложной математики требует более конкретных предположений о применении, и эти предположения не удовлетворяются приложением, производительность может даже ухудшиться. Концептуально ситуация может выглядеть так, как показано на рисунке 1. В литературе по компьютерному зрению в различных статьях и дискуссиях предлагаются методы, позволяющие проводить сравнительную оценку алгоритмов. Преимущества таких методов включают:
⦁ Постановку компьютерного зрения на прочную экспериментальную и научную основу.
⦁ Содействие в разработке инженерных решений практических проблем.
⦁ Возможность точной оценки современного состояния.
⦁ Предоставление потенциальным пользователям убедительных доказательств того, что исследования компьютерного зрения действительно нашли практическое решение их проблем.
Несмотря на эти аргументы, сообщество разработчиков компьютерного зрения в большинстве своем пока не прислушалось к призыву. В последние несколько лет ситуация начала меняться. Был проведен ряд семинаров, конференций и специальных выпусков журналов по теме эмпирической оценки.
Эмпирическая оценка
Мы разделяем работу по оценке на три основные категории. Как и риск при любой классификации, эти категории не обязательно будут чистыми. Работа по оценке может входить более чем в одну категорию или не вписываться четко ни в одну из них. Несмотря на этот риск, мы считаем, что эти категории дают представление, полезное для развивающейся области эмпирической оценки алгоритмов компьютерного зрения.
Первая категория - это независимые административные оценки. В ходе независимой оценки прототипа одна группа собирает набор изображений, разрабатывает протокол оценки, предоставляет изображения испытуемым и оценивает результаты испытаний.
Данный метод позволяет обеспечить высокую степень стандартизации при оценке, так как все алгоритмы тестируются на одних и тех же изображениях и оцениваются одним и тем же методом. Таким образом, независимые оценки обычно позволяют проводить прямое сравнение конкурирующих подходов к той или иной проблеме. Конкурирующие подходы обычно представляют собой самые современные алгоритмы, а индивидуальные конкуренты зачастую являются оригинальными разработчиками алгоритмов. Независимая оценка результатов, проводимая не конкурентом, дает больше ощущения беспристрастности и объективности результатов.
Основным недостатком этой формы оценки является то, что группа, проводящая оценку, должна прилагать постоянные усилия в этом направлении. В идеале, механизм оценки должен развиваться и совершенствоваться с течением времени.
Вторая категория - это оценка набора алгоритмов классификации по одной группе. Группа, желающая сделать оценку, часто не сможет получить доступ к оригинальным реализациям всех интересующих алгоритмов, поэтому ей придется реализовать некоторые из алгоритмов, основанных на информации, содержащейся в литературе. Это вводит возможность того, что версия оцениваемого алгоритма не будет идентична оригинальной версии, используемой разработчиками алгоритма.
Однако реализация и оценка набора алгоритмов одной группой может, по крайней мере, установить производительность базовых алгоритмов. Когда новый алгоритм впервые разрабатывается, он может быть недостаточно отточен, чтобы конкурировать с новейшими алгоритмами. Сравнение с исходным уровнем позволяет провести первоначальную оценку. Сравнение современных алгоритмов с базовыми позволяет определить, насколько высоки дополнительные эксплуатационные расходы. Стоимость может быть функцией вычислительной стоимости или сложности, надежности алгоритма или усилий по его разработке.
Третья категория - это проблемы, когда правда на местах не является очевидной и является важным компонентом процесса оценки для разработки метода получения правды на местах. Классическим примером здесь является разработка методов оценки краевых детекторов. Вопрос о том, что "должно быть" помечено в качестве края в реальных изображениях, часто является проблематичным. Удалось избежать прямого ответа на вопрос и провести тщательную сравнительную оценку пяти краевых детекторов. Они использовали человеческих наблюдателей для оценки качества изображения края в контексте распознавания объектов, а затем провели статистический анализ полученных оценок качества.
Те, у кого нет опыта проведения экспериментов с человеческими наблюдателями, могут столкнуться с трудностями при использовании этого метода оценки. Также можно предположить, что человеческое восприятие качества кромок может использовать свойства кромок, которые отличаются от свойств, необходимых для решения задач машинного зрения.
Эмпирическая оценка алгоритмов постепенно превращается в серьезное подполе компьютерного зрения. Это подтверждается докладами в этом томе, недавними семинарами по оценке, а также специальными номерами и разделами журналов по компьютерному зрению.
Это закладывает основу для разработки принятой практики и методов оценки алгоритмов. Оценка алгоритмов позволяет исследователям узнать сильные и слабые стороны того или иного подхода и выявить аспекты проблемы, требующие дальнейшего исследования.
С практической точки зрения, успешные оценки помогают убедить потенциальных пользователей в том, что алгоритм созрел до такой степени, что его можно успешно применить. Это помогает облегчить ситуацию, когда решение перепродано, и, как следствие, разочарование при запуске алгоритма. Чтобы помочь эмпирическим оценкам стать признанной и ожидаемой частью общества, ученые считают, что необходимо предпринять следующие шаги.
Для решения хорошо известных проблем необходимы стандартные базы данных, протоколы оценки и методы подсчета баллов, доступные для исследователей. Программа FERET по алгоритмам распознавания лиц является, пожалуй, лучшим текущим примером методов оценки из применяемых.