Найти тему
Data and Intelligence

Распознавание образов #2 Постановка задачи

Всем привет. С вами блог «Data and Intelligence» - Блог обо всем, что связанно с Искусственным интеллектом и обработкой данных. Нейронные сети, алгоритмы, обработка и представление данных… Все это в этом блоге. Добро пожаловать.

Сегодня мы повнимательнее рассмотрим постановку задачи распознавания образов. Входы и выходы алгоритма, а также задачи классификации и регрессии.

Распознаваемые объекты кодируются набором признаков, которые являются или числовыми, или принимают конечное число значений. Допустимые значения признаков образуют пространство признаков Х. Если мы имеем d числовых признаков, то Х в данном случае будет подмножеством d-мерного пространства.

Здесь мы сталкиваемся с рядом проблем. Во-первых, некоторые объекты могут обладать неограниченно длинными признаками. Так, например, распознаваемый текст или речь. В данном случае их необходимо сегментировать и обрабатывать по частям

Во-вторых, оцифровка объектов может быть произведена различными способами. Например, страница текста может быть отсканирована с разным разрешением, или изображение с текстом может быть сжато форматом, тем самым испортив качество.

В-третьих, существуют свойства, которые кодируются числами, при этом не являясь числовыми по сути: логический уровень, группа крови, артикул товара…

И здесь есть некоторые рекомендации по кодированию признаков. Во-первых, двоичные признаки традиционно кодируются логическими уровнями, да это 1, нет это 0. А вот признаки, принимающие конечное число неарифметических значений, но большее чаем 2, кодируются независимыми признаками.

Такие признаки называются вторичными, и j-й признак принимает единичное значение если исходный признак равен j, и признак равен 0 в ином случае. Суммарно все вторичные признаки одного первичного признака должны быть равны 1.

Этот способ кодирования можно расширить, изменив логический уровень 1 и 0 на вероятность. При этом сумма все равно всегда должна быть равна 1.

Признаки, принимающие конечное упорядоченное множество значений, которые являются дискретизацией числовых признаков, можно кодировать числом, а можно и набором логических уровней или вероятностей из предыдущего способа. Примером здесь может послужить признак температуры или оценка.

Целочисленные признаки также могут кодироваться набором логических уровней или вероятностей, но только если они принимают заранее известное число значений. Пример – количество конечностей членистоногих.

Если объекты удалось закодировать набором из d входных числовых признаков, т.е. точкой из d-мерного пространства, то признаки следует отнормаровать, чтобы они лежали, например, в единичном кубе или шаре.

Ответы – выходные значения распознавателя – и ожидаемые и вычисляемые распознавателем – кодируются также, как и признаки объектов, т.е. точками в некотором q-мерном пространстве ответов Y.

Тогда получается, что распознаватель должен вычислять некоторую функцию f:Rd->Rq. Про нее мы знаем только некоторый конечный набор признаков и ответов. Иногда распознаватель удобно разбить на несколько распознавателей меньшего масштаба.

Распознавание численной, скалярной или векторной, характеристики объекта называется регрессией. Математическое определение регрессии – это условное мат. Ожидание одной случайной величины относительно другой. Во многих задачах регрессия распознавателя является регрессией математической.

Распознавание качественной дискретной характеристики объекта называется классификацией. Число возможных значений q – число классов, а множество объектов, для которых характеристики принимает j-е значение – j-м классом.

Ответом распознавателя для каждого класса лучше считать не номер класса, к которому распознаватель относит объект, а q-мерный вектор уверенностей – вероятностей – принадлежности объекта к каждому из классов. Таким образом классификация превращается в специальный случай регрессии.

Естественно, чтобы вектор уверенностей стал вектором вероятностей, он должен быть отнормарован, принимая значения от 0 до 1 и сумма всех значений должна быть равна 1.

Задача классификации может быть обобщена на случай, когда объединение классов не равно всему пространству. В таком случае можно ввести дополнительный класс для сведения задачи к правильной.

Также классы могут пересекаться, в этом случае далеко не всегда разумно представлять ответ в виде вектора вероятностей. Например при распознавании текста буквы большая и маленькая «О» похожи между собой и на цифру «0». При этом представлять вероятность каждого как 1/3 может быть вредно для задачи распознания слова в целом.

В задачах, когда есть два равноправных класса, не пересекающихся и покрывающих все пространство, вычисляться может только одно число, уверенность в принадлежности объекта к одному из классов. Сравнивать эту уверенность можно с некоторым порогом.

Дополнительный класс может и не предъявляться для обучения распознавателя. Например, при обучении распознаванию цифр голосового набора разумно предъявлять только цифры, не предъявляя остальных слов.

Классификация может быть сведена к одному много классовому или к множеству одно классовых классификаторов. В каждом случае эффективнее будут свои решения.

Получается, что регрессия - распознавание непрерывных величин – ущемлена относительно классификации, в том смысле, что при классификации мы получаем вектор уверенности или вероятность, а при регрессии только саму величину или ее мат. ожидание.

На сегодня все, если вам интересна эта тема – ставьте лайк и подписывайтесь на канал, это блог «Data and Intelligence» - всем пока.