Распознавание через связь шаблонов

Часто наблюдаемый объект обладает внутренними степенями свободы, а это означает, что его внешний вид может сильно варьироваться (например, люди могут двигать руками и ногами, рыбы деформируются при плавании, змеи извиваются и т.д.). Данное явление может чрезвычайно затруднить сравнение с шаблоном, поскольку потребуется либо классификатор с гибкими границами (и множество образцов), либо много различных шаблонов.

Многие объекты названного типа содержат небольшое число компонентов, довольно строго упорядоченных. Можно попытаться согласовать данные компоненты как шаблоны, а затем определить, какие объекты присутствуют, изучив предложенные связи между найденными шаблонами. Например, вместо поиска лица по одному полному шаблону лица, можно искать глаза, нос и рот с приемлемым взаимным расположением.

Данный подход имеет несколько потенциальных преимуществ. Во-первых, узнать шаблон глаза может быть легче, чем узнать шаблон лица, поскольку первая структура очевидно проще. Во-вторых, можно получить и использовать относительно простые вероятностные модели, поскольку могут существовать некоторые свойства независимости, которые можно будет использовать. В-третьих, возможно, удастся согласовать большое число объектов с относительно небольшим числом шаблонов. Хороший пример этого явления - морды животных; почти все животные с характерными мордами имеют глаза, нос и рот, отличается лишь пространственное расположение этих элементов. Наконец, из сказанного следует, что для построения сложных объектов можно использовать простые отдельные шаблоны. Например, люди могут двигать руками и ногами, и похоже, что обучить цельный явный шаблон обнаруживать людей целиком значительно сложнее, чем получить отдельные шаблоны для частей тела и вероятностную модель, описывающую их степени свободы.

Рассматриваемая тема не настолько хорошо изучена, чтобы к ней выработался какой-либо стандартный подход. В то же время основной вопрос достаточно очевиден - как закодировать набор связей между шаблонами в форму, с которой легко работать. В данной главе изучается ряд различных подходов к данной задаче. Во-первых, каждый шаблон может указывать на объекты, которые он может представлять, а затем каким-то образом считается число указателей. Если построить некоторую явную вероятностную модель, для описания деталей пространственных отношений можно использовать больше весовых коэффициентов. Данную модель можно получить из функций правдоподобия; по сути, нужна функция распределения вероятностей, дающая большое значение, когда конфигурация компонентов подобна объекту, и малое - в противном случае. Тогда поиск объектов превращается в поиск шаблонов, которые при подстановке в вероятностную модель дают большие значения. Нужно отметить, что следует внимательно относиться к сокращению поиска. Сложность этого подхода заключается в том, что даже при сокращении поиск может быть дорогим. Как утверждают Форсайт и Понс, в то же время при определенном классе вероятностных моделей можно провести эффективный поиск [21].

Простые модели объектов могут обеспечивать достаточно эффективное распознавание. Простейшая модель - это рассматривать объект как набор фрагментов изображения (небольших окрестностей элементов характерного вида) нескольких различных типов, формирующих образ (pattern). Чтобы определить, какой образ наблюдается, находятся все фрагменты, каждый из которых указывает на все образы, в которые он входит. То изображение, на которое было указано наибольшее число, и считается присутствующим. Хотя данная стратегия проста, она довольно эффективна. Ниже описываются методы поиска фрагментов, а затем представляется ряд последовательно усложняющихся реализаций данной стратегии.

Описание фрагментов изображения

Небольшие фрагменты изображения могут иметь достаточно характерный вид, если имеют много ненулевых производных (например, в углах). Авторы [16] искали углы на изображении, часто именуемые точками интереса. Далее оценивался набор производных функции яркости в этих углах и набор производных, инвариантных относительно вращения, трансляции, определенного изменения масштаба и изменения освещения. Данные признаки назывались инвариантными локальными особенностями (invariant local jets).

Далее будем предполагать, что фрагменты изображения можно разбить на несколько классов. Представители каждого класса могут быть получены использованием нескольких изображений каждого объекта - как правило, соответствующие фрагменты будут относиться к одному классу, но, возможно, вследствие шума иметь несколько отличающиеся инвариантные локальные потоки. Подходящий набор классов можно определить либо посредством ручной классификации фрагментов, либо посредством кластеризации фрагментов-образцов (несколько лучший метод). Теперь требуется определить, когда два набора инвариантных локальных потоков представляют один класс фрагментов изображения. Шмид (Schmid) и Mop (Mohr) для проверки использовали расстояние Махаланобиса (Mahalanobis distance) между векторами признаков тестируемого фрагмента и фрагмента-образца; если замер был меньше некоторого порога, тестируемый фрагмент считался идентичным образцу.

Перейти на страницу: 1 2

Другое по теме:

Разработка алгоритма и программы на ассемблере
Для полноценного функционирования электронного средства существует необходимость в решение различных не сложных арифметических и логических функций, но огромное количество таких задач представляет собой очень трудоемкий и дли ...

Параболическая антенна
Рассчитать антенну с параболическим зеркалом. Влияние земли на параметры не учитывать. Исходные данные для расчёта: 1. Рабочая частота . . Ширина главного лепестка на уровне половинной мощности в Е-пло ...

©  www.techvarious.ru - 2019