Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
_ТР_ЭлК_2012__Шестаков.doc
Скачиваний:
36
Добавлен:
26.09.2019
Размер:
11.56 Mб
Скачать
  1. Логические методы распознавания, их специфика и применение.

Решение задач распознавания, в случае детерминированных переменных, может быть осуществлено по ниже описанной схеме. Номер класса ищется по формуле бинарного сравнения бинарного описания классов. Описание класса состоит из двух векторов. Это вектор маски , закрывающей переменные, не участвующие в описании класса и вектор описания искомого класса . Описание классов помещается в базу данных разнообразных реализаций классов. Пусть 0 – индекс отсутствия сходства.

.

Сравнения повторяются с наращиванием (k=k+1) до совпадения.

Затраты времени при проведении таких сравнений с несколькими десятками тысяч описаний классов, при размерности входного вектора в несколько сотен переменных займет доли и единицы микросекунд, что для подавляющего большинства практических случаев допустимо.

Ниже выборка с программы для байтовых машин.

Задаются максимальные размеры областей сравнения max_Datzik*8 в данном случае 160 бинарных переменных.

const int max_Datzik=20;

BYTE Maska_Razreshenie_Standart[max_Operaz*max_Datzik]; // маска текущего класса (База данных векторов масок)

BYTE Kod_Razreshenie_Standart[max_Operaz*max_Datzik]; // код текущего класса (База данных векторов кодов классов)

BYTE XRT[max_Datzik]; // вектор 160 битовых входных переменных.

int Razreshenie_Standart(int num_operaz)

{ ADD_Razreshenie_Standart=0;

for (int i=0; i<max_Datzik; i++) {

if((Kod_Razreshenie_Standart[(num_operaz*max_Datzik)+i]&Maska_Razreshenie_Standart[(num_operaz*max_Datzik)+i]) == (XRT[i]&Maska_Razreshenie_Standart[(num_operaz*max_Datzik)+i])) {}

else ADD_Razreshenie_Standart+=1;

}

return i;

}

Повышение производительности достигается переходом 64-х разрядным операндам. Реально целесообразное использование метода достигает размерности бинарного признака в 1024 (16 – 64-х разрядных слов) и числа классов также в данных сотен и тысяч. В состав бинарного вектора признака входят и служебные поля и поля состояний системы, учитывающие и предысторию сравнения.

Данная технология хорошо зарекомендовала себя в практическом применении и легко расширяема введением других логических побитовых сравнений. Например, введением операций “ИЛИ”.

Переходом от побитового равенства к формированию расстояния Хемминга (рис.8.00) достигается возможность сравнения случайных битовых описаний. Определим, через операторы “xor” (побитовое исключающее ИЛИ), вектор расстояния и последующим подсчетом числа единиц получим число. Входной вектор сравнивается после умножения на маску с вектором совпадения класса. Выходной операнд содержит единицы в несовпадающих разрядах, пропущенных маской класса.

Рис.8.00. Формирование расстояния Хемминга

Таким образом, появляется возможность расширить технологию высокоскоростного сравнения битовых массивов на близость к входному вектору. Для однородных векторов такой подход целесообразен.

Несколько более абстрактен подход к формированию по битовым полям, как индексам, индексов структур описания классов, близких к распознаваемому, с указанием расстояний до них.

Рис. 8.01 поясняет процедуру.

Рис.8.01. Выборка по битовым полям

Входной вектор размерностью N бинарных разрядов поступает, как адрес, в память (в программном решении - индекс). Компоненты Х могут быть бинарными признаками, двух, трех, четырех битовыми полями других признаков. Реальный размер N достигает 32 бит, предполагая гигасловную выборку. Комбинация компонентов может включать в себя укрупненные пиксели, функционалы с уменьшенной разрядностью. Скорости решений лежат от десятков миллионов распознаваний в секунду. Наполнение памяти производится предварительно.

Расширение поля входного вектора производится при слабой ковариационной связи между полями и приводит к иерархической структуре процесса распознавания. Появляется множество входных блоков (объектов в программе), получающих вектор Х разрядностью NI, множество блоков последующих ступеней, получающих пониженные по размеру вектора результатов выборок предыдущих ступеней. Общие требования к объему памяти существенно снижаются. Например, при отсутствии межблочных зависимостей 4-х ступенчатая, однородная схема (рис. 8. 02)обеспечит понижение разрядности в 3.462*10^32 раза, обеспечив разрядность входного вектора в 128 единиц при потребности в суммарном блоке памяти размером порядка одного мегаслова. Конечно, это упрощенный вариант схемы устройства или алгоритма, но возможности выборки достаточно сложных образов по их индексам очевидны.

Рис.8.02. 4-х ступенчатая схема

Идентификация объектов по их геометрическим параметрам (размерам, форме, положению) широко используется во многих отраслях техники, в криминалистике и т.п. Будем считать многие из них упрощенными по взаимосвязи с объектами, т.е. простыми и имеющими четкое логическое определение. Примером может служить обработка сигналов в стереодальномере.

Рис.8.1. Сигнал в стереоскопическом дальномере

На рис.8.1 приведены сигналы с фотоприемника, на который проецируются изображения с двух разнесенных в пространстве каналов наблюдения. Вначале производится обнаружение объектов. Результатом выполнения данной процедуры будет координата ~ 4000 мкм, которая указывает на положение двух объектов, расстояние до которых необходимо определить.

Далее формируется описание объектов в пространстве их яркостных и геометрических параметров (линейных размеров). По данным признакам ищутся схожие объекты схожих объектов в зоне левого канала.

После обнаружения определяются координата схожих объектов в зоне левого канала наблюдения ( ~ 23000 мкм). Разность найденных координат в первом приближении пропорциональна искомому расстоянию до объекта.

Вторая задача – идентификация стволов нарезного оружия по следам на пулях. Рис. 8.2 показывает трассы сканирования оболочки пули и полученные профилограммы. Сравнение с эталоном конкретного ствола, хранящегося в пулегильзотеке дает оценку степени схожести.

Рис. 8.2. Трассы сканирования оболочки пули и профилограммы

В ходе съема профилограмм возникают промежуточные задачи распознавания геометрических образов и их параметров. Например, влияние эксцентриситета установки пуль приводит к искажению получаемых результатов. На рис. 8.3 и 8.4 приведены исходный и выходной сигнал операции определения распознавания эксцентриситета и определения его параметров – фазы и максимальной величины смещения.

Рис. 8.3. Профилограмма с эксцентриситетом

Рис. 8.4. Профилограмма после устранения эксцентриситета

Полученные данные могут поступать на финишную обработку, которая может проводится и в полярной системе координат (рис. 8.5).

Рис. 8.5. Сравниваемые профилограммы в полярной системе координат

Во втором примере вычисляется несколько сотен размерных признаков, которые служат для распознавания объектов.

Реальные схожие задачи в микроэлектроники распознавание дефектов топологии технологических компонентов (фотошаблонов, масок и т.п.), а также самих изделий (металлические проводники, слои СБИС и т. п.). Трехмерные объекты также часто распознаются по двумерным изображениям. Определение качества паянных соединений, например, контактных площадок, пропайка выводов микросхем проводится по девиации яркости, зависящей от формы фрагментов застывших волн припоя. В физическом эксперименте следы частиц позволяют определить параметры источника. В многих случаях контур объекта должен принадлежать некоторой заданной зоне, это характерно для биологических, медицинских и отдельных технических задач. В криминалистике поиск объектов проводится нередко по сходству геометрии линий.

Исходной операцией процедуры распознавания во всех указанных случаях является определение геометрических параметров объектов. Рассмотрим две группы алгоритмов, часто применяемых на практике:

- упрощенные с определением искомых параметров при погрешностях сравнимых или больших, чем эквивалентный размер пикселя;

- точные с интегрирующими цифровыми фильтрами и аппроксимацией результата с разрешением в десятые и сотые доли эквивалентного размера пикселя.

Упрощенное определение геометрических параметров широко используется в системах обнаружения, как первая процедура при локализации объектов. Полное решение задачи распознавания, как правило содержит много процедур, в дальнейшем часть из них будем опускать, останавливаясь только на ключевых.

Определение положения границ объекта по переходам свет/тень (контурам).

Часто данная операция проходит путем сравнения с порогом фиксированным или адаптивно перестраиваемым по форме сигнала в зоне фронта. В таких алгоритмах эффективно применяется операция укрупнения пикселя. Это позволяет увеличить соотношение сигнал/шум и надежнее распознать объекты по энергии сигнала. Размеры укрупненного пикселя принимаются равными размерам искомого объекта. Корректное выполнение операций поиска координат требует проведения низкочастотной фильтрации изменений среднего в сегменте для устранения тренда в сигнале, обусловленного конкретным положением источника света.

Точное определение геометрических параметров производится с изображениями максимального разрешения. Снижение вычислительной нагрузки обеспечивается ориентацией зональной обработки на координаты объекта, полученные при грубой локации.

Поясним последовательность и специфику операций на примере. Пусть требуется определить координату по строке и размер объекта приведенного на рис. 8.2.

Сформируем пороговой обработкой адаптивный фильтр – рис. 8.6. Вычислим свертку сигнала с правой частью фильтра. Результат вычислений приведен на рис. 8.7. Отчетливо виден пик сигнала, по его положению несложно оценить координату объекта (4214 мкм). Это и есть грубо вычисленная координата. Ее дискретность – 14 мкм (шаг элементов фотоприемной матрицы).

Рис. 8.6. Цифровой фильтр селекции сигналов

При этом улучшается и соотношение сигнал /шум.

Оценить улучшение количественно можно оценив шум вне зоны сигнала и размах сигнала. Для упрощения возьмем один объект (рис. 8.7а) – ствол дерева малого в пикселях размера. Шум ah до 20 пикселей.

Рис. 8.7а. Цифровой фильтр селекции сигналов

, .

, где si =31.85 – соотношение сигнал/шум в децибелах для исходного сигнала и отфильтрованного, точка b – положение максимума сигнала, r_mean, r_stdev – оценки среднего и среднеквадратичного отклонения на участке предшествующем сигналу.

Введем цифровой фильтр F1 (рис. 8.7б) и определим свертку f1 – новый сигнал (рис. 8.7с).

.

Рис. 8.7б. Цифровой фильтр селекции сигналов

Новый сигнал и его соотношение сигнал/шум показывают полезность данной операции в процедуре распознавания.

Рис. 8.7с. Сглаженный сигнал

.

Для более точного расчета изменяют форму фильтра. Как правило, используют приближение от первой производной искомого сигнала. Формулу свертки оставляют прежней.

Новый фильтр помещают в зону грубой координаты, сместив его на границу доверительного интервала локализации сигнала и проходят расстояние равное удвоенной величине возможной ошибки.

Для определения размера приближают форму фильтра к форме второй производной от фронта сигнала.

Рассмотренные фильтры являются квазиоптимальными для линейных алгоритмов определения координат, размеров объектов, т. е. они по форме только близки к оптимальным.

Рис. 8.7д. Отклик на интегрирующий поисковый фильтр

Более корректное решение предполагает распознавание формы сигнала, оценку его параметров, генерацию эталонного сигнала полученной формы, получение разностного сигнала при смещении эталонного вдоль распознаваемого и определение положения эталонного, при котором минимизируются штрафы за не точную оценку координаты, размера. Обычно для количественных расчетов в этих случаях используются корреляционные соотношения.

По сути, процедура решения задач распознавания объекта часто подобна раскрытию матрешки. Определившись с одним объектом для распознавания, обнаруживаете задачу распознавания его компонентов и т. д. Описав геометрию объекта, необходимо распознать форму границы объекта, решить вопрос с определением понятия “положение границы объекта”, составить описания классов помех во всех случаях и т. п. распознать границу, определить грубо ее положение и уточнить координаты.

Наряду с анализом признаков одиночных объектов, не редко требуется определить геометрические признаки и для групповых объектов. К ним относятся средние величины расстояний, средние размеры объектов, входящих в группу.

Рассмотрим пример расчета геометрических характеристик изображения текста. Определим величину межстрочечного интервала и координаты центров строк.

Рис. 8.8. Изображение анализируемого текста

Рис. 8.9. Интегральный сигнал

Рис. 8.10а. Частотный спектр интегрального сигнала

На рис. 8.8 представлено изображение текста. Как уже указывалось, возможность распознавания можно улучшить, интегрируя участки изображения, в данном случае в направлении перпендикулярном направлению анализа. Вычислим интегральный сигнал , он также приведен на рис. 8.9. На данном сигнале отчетливо видно хорошее различие заполненных черными точками текста участков.

Переходя в частотное пространство определим величину интервала между строками. Уменьшим размер вектора до 64 (кратно 2 в степени n), и вычислим модуль F2 частотного спектра сигнала

, где . , где - Фурье образ Y2f, а k=0..c и - индекс последнего элемента вектора (рис. 8.10а). Интервал между строками в пикселях - h равен: , где - массив нулей с координатой максимума частотного спектра. В нашем случае h=13.

Координаты центров грубо найдем, дополнительно проинтегрировав сигнал

(фильтр 6 пикселей = 1, остальные =0):

Рис. 8.10 б. Сглаженный сигнал от

Рис. 8.10 с. Координаты центров строк

Существует много задач распознавания, в которых классы видоизменяются во времени и имеют много схожих признаков. Классический пример – работа с изображением лица человека. Комплекс задач анализа изображений лица (определения характеристик человека, его состояния по изображению его лица, трансформация изображений лица, распознавание речевых команд по движению губ, идентификация человека по изображениям его лица, анализ выражений лица и т. п.) широко прорабатывается в криминалистике, кинематографии, психологии, медицине и в охранных службах. Примером этому служат работы в областях изучения человеческой способности распознавания «гладких» лицевых форм (наподобие античных статуй), трансформации изображений лиц, а также задачи, которые в перспективе могут оказаться полезными для распознавания - оценка ракурса съемки по полученному в итоге изображению, построение трехмерных моделей лица по двухмерным изображениям.

Исследования в области психологии определили, что существует, как минимум шесть человеческих эмоций, которые могут быть идентифицированы по соответствующим выражениям лица: счастье, грусть, удивление, страх, гнев и отвращение. Система, основанная на использовании геометрической и физической (мускульной) моделей лица и оптимальных оценок оптического потока "метод Кимура и Яшиды ", способна работать с кадрами обычных видеофильмов и определять не только основные эмоции, но и простые мимические изменения лица (улыбка, поднятие бровей). В то же время основной целью исследований было не только определение некоторых типов выражений лиц, которые можно ассоциировать с человеческими эмоциями, но и оценка "силы" самих эмоций.

Целью исследователей, работающих в области анализа выражений лица, является и разработка математической модели лица и его микродвижений, которые бы отражали реальную мимику лица. То, что человеческое лицо является совершенным сигнальным устройством, и с него можно "считать" много полезной информации о его обладателе, является общеизвестным фактом. И хотя анализ лицевых выражений и определение таких характеристик объекта, как пол, раса, возраст и им подобных, можно было бы объединить в одну проблему, имеется разница в подходах. Кроме того, к задачам последнего типа можно отнести и определение характеристик непосредственно самого изображения лица, например степени симметрии лица, относительно вертикальной оси.

Разработанные для определения характеристик подходы могут быть использованы и для решения других задач. Так, например, Вискотт для определения по изображению человека таких признаков, как пол, наличие бороды и очков, использует метод сопоставления графов. В нескольких сотнях экспериментов процент корректного распознавания различных характеристик человеческого лица составил от 83 до 96%. Алгоритмы определения пола, основанные на нейронных сетях, демонстрируют схожие результаты распознавания - 87,5% и 91,9% .

Определение же оси симметрии лица для Эшме, Санкура и Ана-рима является лишь одной из подзадач по предобработке исходного изображения. В дальнейшем они используют эту информацию для корректировки работы алгоритма поиска координат черт лица.

Рассматривается проблема выбора ограниченного набора собственных векторов и его применения в распознавании пола и других признаков человека.

В ряде решений перед процедурой распознавания проводят плавную трансформацию изображений 3D объектов на примере лица человека. Задача плавной трансформации может быть разбита на три подзадачи. Первая - выделение и установление точек соответствия между двумя заданными изображениями либо объектами. Это наиболее сложная часть данного процесса. Вторая - определение или конструирование морфологической функции, отображающей множество точек, выделенных на предыдущем этапе из первого изображения, в такое же множество, выделенное для второго изображения. И третья подзадача - это плавное изменение значений пикселей двух изображений с целью создания нескольких промежуточных изображений.

Разработки в данной области представляют собой частные случаи решения более общей задачи машинной графики по плавной трансформации изображения одного объекта в изображение другого. И хоть имеется множество программных продуктов, позволяющих добиваться высококачественных видеоэффектов (телевизионная реклама, музыкальные клипы и т.д.), исследования в данной области продолжаются. Их основная цель - разработка более гибких, простых и быстрых алгоритмов, а также изучение возможности их применения в других задачах, связанных с анализом изображений лиц. Кроме того, одной из наиболее исследуемых проблем в данной области является поиск эффективного алгоритма определения характерных черт изображения, которые и обусловливают выбор точек соответствия. Особенно актуален этот вопрос при необходимости трансформации одной в другую двух заданных последовательностей изображений. В настоящее время скорость работы систем, трансформирующих изображение друг в друга, достаточно высока и осуществляется в реальном времени.

Задача поиска лиц в толпе – обнаружение осуществляется "вырезанием" из кадра областей, близких по признакам к изображениям лиц. Данная задача является, по сути первым этапом полностью автоматизированного процесса распознавания человека в случае, когда идентификация личности происходит по изображениям, при создании которых данная цель не преследовалась либо возможности съемки были ограниченными (непрофессионально сделанные изображения, съемка скрытой камерой, видео кадры и т.п.). После этого вырезанные области сравниваются с эталонами лица человека. Автоматическое выделение области лица на фотографии является одним из обязательных шагов по нормализации изображений, общая достоверность распознавания превышает 97%, что говорит о приемлемом качестве.

К данному классу исследований можно отнести и работу By, Чена и Яшиды, результатом которой явилось построение системы проверки лиц; т.е. системы, которая устанавливает, действительно ли фрагмент изображения является человеческим лицом или же представлены просто похожие на него объекты. Когда данная система получает предполагаемое изображение лица, то из изображения сначала выделяются контуры. Затем система устанавливает приблизительные регионы поиска черт лица путем выявления зон, где средняя плотность горизонтальных краев высока. При помощи метода интегральных проекций уточняются координаты каждой зоны. Полученные данные проверяются сравнением с геометрической моделью лица и в итоге определяется, является ли данная часть изображения действительно лицом или нет.

Одна из наиболее интересных и требующих эффективного решения задач - это автоматическое определение точных координат ряда характерных антропометрических точек (уголки глаз, кончик носа, уголки губ и т.д.). Отличительной особенностью данной задачи является существенное различие изображений таких элементов лица, как глаз, нос, рот, которым эти точки принадлежат. Иными словами, проблема состоит в том, что характеристики изображения каждого участка человеческого лица (глаз, носа, контура лица и т.д.) настолько различны, что для решения всей задачи в целом приходится разрабатывать отдельный подход к выделению каждой черты лица. Точность выделения указанных участков лица существенно влияет на достоверность распознавания всей системы в целом. Как правило, каждый метод включает два этапа: определение прямоугольных окон поиска и нахождение точных координат характерных точек внутри выделенных фрагментов. Приведем несколько конкретных примеров.

Для получения координат окон для поиска носа и рта Брунелли и Поджио применяют метод интегральных проекций. Из исходного изображения лица получают две интегральные проекции - горизонтальную и вертикальную. Делается это следующим образом: пусть I(x,y) -исходное изображение, тогда вертикальная и горизонтальные проекции изображения 1(х,у ) в квадрате с угловыми координатами [x1,y1] и [х2,у2] определяется

, .

Вертикальные координаты областей носа и рта находятся с помощью антропометрических отношений частей лица человека, в то время как горизонтальные координаты получают путем анализа гистограмм интегральных проекций. На втором этапе по пикам вертикального градиента на горизонтальной проекции находят местоположение носа, а по впадинам - местоположение рта, так как линия между губами выглядит на изображениях очень темной. Границы носа оцениваются при помощи наибольших правых и левых пиков, а координаты характерных точек рта определяются подобным способом на вертикальной проекции. Области изображений глаз Брунелли и Поджио находят принципиально другим способом - при помощи метода сравнения с эталоном. Нахождение на изображении бровей и их толщины выполняется так же, как для носа и рта. Поиск ограничен окном, расположенным чуть выше глаз (расположение глаз уже должно быть определено), и производится с помощью вертикальной интегральной проекции. В алгоритме ищутся пики градиента интенсивности в двух противоположных направлениях. Пары пиков над одним глазом сравниваются с парами над другим и наиболее схожие выбираются как соответствующие друг другу.

При нахождении нижней границы безбородого лица (скулы, подбородок и т.д.) используют специальную эллиптическую систему координат (эллипс в данной системе представляется прямой) и таким образом им удается минимизировать вычислительные затраты на определение нижнего контура лица. Определение черт лица с использованием геометрических моделей устраняет трудности распознавания, вызванные эмоциональным выражением и ориентацией лица. Предварительно проводят высокочастотную фильтрацию, которая подчеркивает контуры. После чего производится бинаризация, далее пиксели бинарного изображения группируются и опознаются. Ищутся глаза, которые должны находиться на одной линии, близкой к горизонтальной и расстояние между глазами приблизительно равно двум длинам глаза. Учитывая эти, а также и другие признаки, проверяют все пары регионов и выбирают одну пару, соответствующую упомянутым условиям. После чего, основываясь на антропометрической статистике, находят относительное местоположение рта и других частей лица

И все таки, лицо трехмерный объект и наиболее информативными являются 3D изображения лиц. При этом порождается множество задач распознавания трехмерных описаний моделей. На рис. 8.11 приведено изображение лиц людей, освещенных матрицей элементарных осветителей заданной формы. Лучи идут под углом к прибору наблюдения. В результате формируется более сложное описание несущее информацию о глубине расположения элементов лица. Например, освещение этим же осветителем менее рельефного объекта показывает эллипсоидность его формы (рис. 8.12). Элементарный осветитель может иметь более сложную форму (рис. 8.13 – изображение площадки светодиода, направляемое на объект).

Рис. 8.11. Лицо, освещенное матрицей зондов

Рис. 8.12. Эллипсовидный объект

Рис. 8.13. Сложный зонд

Тогда в форме отклика присутствует информация (рис. 8.14) о углах нормали к зондируемому участку поверхности (определение деформации в направлениях , позволяет получить числовые параметры углов наклона участка поверхности).

Рис. 8.14. Сигнал от изображения сложного зонда

Но наибольшее количество успешно проведенных работ посвящено идентификации человека по изображению его лица. Практика использования фотографий в паспортной, пропускной системах доказывают принципиальную возможность определения принадлежности снимка конкретному человеку (классу).

Обычно эту задачу рассматривают в соответствии с предназначением систем идентификации: режима реального времени и поиска изображений опознаваемого объекта в больших базах данных. Таким образом, существующие разработки можно разделить на два класса:

1. Системы идентификации объекта по фотографии в большой (10000-3000000) базе изображений.

2. Системы идентификации объекта в режиме реального времени (системы наблюдения служб безопасности, обеспечения доступа небольшой группе 10-100 изображений и закрытия его для посторонних).

Как правило, системы, реализующие решение задач первого класса, возвращают ранжированный набор изображений, наиболее похожих на искомое, и выбор окончательного решения предоставляется эксперту. Номер в группе обычно соответствует степени близости выбранного изображения и сравниваемого.

Следует отметить, что по статистике в реальной базе данных, содержащей 100 000 портретов, 417 человек будут иметь двойников. Так как базы содержат сотни тысяч изображений, то существующие системы работать в режиме реального времени не в состоянии. Цель - решение задачи за разумное время. Обычно допустима реакция в течении нескольких часов.

В системах второго класса изображение лица человека используется как ключ, подтверждающий либо опровергающий введенные для идентификации данные для настройки таких систем часто используется несколько фотографий одного человека. Цель - решение задачи в течение нескольких секунд, т.е. в реальном режиме времени.

С практической точки зрения разработка систем для решения задач второго типа более проста и требует меньших усилий, чем для решения задачи первого типа. Кроме того, методы первого класса, могут быть с успехом применены и в системах, работающих в режимах реального времени и реализующих решения задачи второго класса. В принципе сама процедура опознавания часто схожа.

Исходные процедуры подготовки изображений.

1.Определение размера и ориентации 3D объекта на фотографии и последующее масштабирование. Так как фотографии для распознавания могут быть непрофессиональными, то размеры лица и его ориентация на снимке могут достаточно сильно варьироваться от одного изображения к другому.

Методы обработки по-разному чувствительны к малым и существенным изменениям размеров лица и его ориентации, однако если лицо на портрете слишком мало (10х12 пикселей, например) и (или) сильно повернуто в сторону, то человека достаточно сложно распознать. В этом случае выходной набор аналогов имеет внушительный размер.

Практика показывает распознавание будет успешным, если область лица представлена зоной размерами не менее 80х120 пикселей, а отклонение лица от горизонтальной и вертикальной осей лежит в пределах 30° и 45° соответственно. Рекомендуемое минимальное разрешение составляет 2 мм на пиксель.

2. Корректировка освещенности. Яркость и четкость изображения очень сильно зависят от условий освещения в момент съемки. Плохие характеристики портрета могут привести к сбоям в алгоритмах бинаризации и группировки, и, следовательно, общий коэффициент распознавания системы также значительно снизится. Необходимо предусматривать дополнительные алгоритмы фильтрации для уменьшения возможного отрицательного эффекта.

3. Оценка открытость лица на изображении. Участки лица закрытые другими предметами, такими, как шляпы, очки или волосы должны быть отмечены как не определенные, чтобы посторонние предметы не вносили шумов распознавания. Большинство систем распознавания не могут справиться с этой проблемой успешно. В зависимости от того, на каком участке лица основывается непосредственно сам алгоритм распознавания, а чаще всего это глаза, выдвигается условие к входящим изображениям об обязательной доступности требуемого фрагмента для полного анализа.

После выполнения операций подготовки изображений переходят к поиску аналогов. На рис. 8.15 представлены часто упоминаемые методы анализа схожести.

Наиболее распространена операция оценки геометрических особенностей лиц или анализ совокупностей антропометрических точек. В криминалистической экспертизе данный подход применяется уже на протяжении нескольких десятков лет и по праву считается самым надежным при идентификации объекта по фотопортрету. Тот факт, что люди существенно различаются своей внешностью и, в частности, чертами лица, очевиден. Так, например, расположение глаз и их мельчайшие характеристики различаются даже у близнецов. Поэтому не удивительно, что исторически первый поход к решению проблемы автоматической идентификации человека по изображению его лица был основан на выделении и сравнении некоторых антропометрических характеристик лица.

Основная проблема - выбор совокупности характерных точек, однозначно описывающих конкретное человеческое лицо. При этом необходимо учитывать следующие требования: точки на лице или черты лица, на которых основывается идентификация, не должны закрываться прической, бородой, маской и т.п.; для обеспечения независимости процесса распознавания от масштаба изображения целесообразно описывать систему идентификационных точек в отношениях между ними; выбранная система точек должна обеспечивать относительную устойчивость процесса распознавания при незначительном изменении ракурса съемки (легкий поворот головы, наклон, изменение выражения лица и т.д.); количество характерных точек системы, удовлетворяющей вышеизложенным требованиям, должно быть минимальным, так как вычислительная стоимость алгоритмов обычно пропорциональна их количеству.

Рис. 8.15. Классификация часто встречающихся методов сравнения лиц

К настоящему времени имеется много работ, посвященных исследованиям распознавания с помощью различных совокупностей характерных точек и анализу эффективности работы систем, построенных на их основе. Использование лишних параметров может не только затормозить работу алгоритма, но иногда и снизить точность распознавания. Так, в одной из первых работ по распознаванию людей при использовании набора из 16 параметров лица, среди которых были соотношения между расстояниями, площадями и даже определялись углы между выбранными комбинациями точек, эффективность распознавания колебалась от 45 до 75% в зависимости от используемого набора параметров. Причем лучшие результаты были получены, когда некоторые параметры не учитывались.

Наиболее часто упоминаемые точки и геометрические характеристики:

  • толщина бровей над центрами зрачков;

  • приблизительное (грубое) описание арки брови над левым глазом;

  • вертикальная координата местоположения носа и его ширина;

  • вертикальная координата местоположения рта, ширина и высота верхней и нижней губ;

  • одиннадцать радиусов, описывающих форму подбородка;

  • ширина лица на уровне кончика носа;

  • ширина лица посередине между линией уровня глаз и кончиком носа.

Применяя к описанным подобным образом лицам классификатор Байеса добились 90% распознавания на базе данных в 47 человек. Однако метод сравнения с эталоном при тестировании на той же самой базе изображений дал точность распознавания 100%. Представляет интерес приведенная в описании система характерных точек и получаемых на их основе расстояний (рис. 8.16), а также ее устойчивость к незначительным изменениям условий съемки (поворот, мимика, освещение и т.д.).

Рис. 8.16. Проекции лица человека: фронтальная и профильная

Ориентация фронтальной проекции определяется линией, перпендикулярной воображаемой оси, проходящей через центр ушей человека. Допустимо, чтобы фронтальная проекция голова имела небольшой наклон вперед. Как следует из рис. 8.16, фронтальные проекции идентификационных точек обозначены:

центр зрачка (15а и15b), кончик носа (20), который определяется как центральная точка между носовыми отверстиями, центр рта (25) - как точка пересечения линии, разделяющей верхнюю и нижнюю губы объекта, и перпендикуляра, опущенного из точки, определяющей кончик носа объекта, левый угол левого глаза, обозначенный точкой З0а, правый угол правого глаза – З0Ь; нижние точки окончания мочек ушей - 35а и 35b.

При желании могут быть использованы и другие характерные точки лица, например крайняя точка правого угла левого глаза и пр. Указанные точки на фронтальной проекции лица позволяют определять характерные лицевые параметры последнего. Отмечается, что в данном контексте термины "лицевые параметры" и "длина лицевого параметра" идентичны и означают расстояние между соответствующими идентификационными точками на лице. На рис. 8.17 показаны выбранные параметры, которые означают следующее:

REN (1) - расстояние между центром сетчатки правого глаза и центром кончика носа;

REM (2) - расстояние между центром сетчатки правого глаза и центром ротового отверстия;

LER (3) - расстояние между центрами сетчатки глаз;

LEN (4) - расстояние между центром сетчатки левого глаза и центром кончика носа;

LEM (5) - расстояние между центром сетчатки левого глаза и центром ротового отверстия;

DMN (6) - расстояние между центром ротового отверстия и кончиком носа.

Рис. 8.17. Идентификационные параметры на фронтальной и про­фильной проекциях

Все выбранные и отмеченные выше параметры приняты в качестве основных, поскольку на них не влияют такие факторы, как прическа, макияж, наличие ювелирных украшений и пр.

Используя шесть отобранных параметров можно составить до 30 соотношений между ними, которые могут использоваться в качестве признаков. При этом 15 из них будут прямыми, а 15 - обратными соотношениями.

Основной причиной введения в качестве идентификационной единицы отношения параметров является тот факт, что это отношение является величиной постоянной, не зависящей от расстояния, с которого делается фотография человека, а по фотографии невозможно определить размеры головы и ее участков.

Для установления идентичности человека чаще других используются следующие отношения параметров:

LEN/LER; LEM/LER; REN/LER; REM/LER; DMN/LER, кроме того, в качестве дополнительных были выбраны усредненные отношения: (LEN/LER+REN/LER)/2 и (LEM/LER+REM/LER)/2. Проведены исследования эффективности использования признаков. Испытуемые просто опускали свои пропуска в считывающее устройство, находясь в стандартном положении. Типичная точность системы распознавания составила 98%.

Следующим, наиболее проработанным после метода анализа антропометрических характеристик лица можно назвать метод собственных векторов (чаще его называют методом главных (принципиальных) компонент лиц). Он является примером того, как математические методы (метод анализа главных компонент), успешно применявшиеся в других областях, оказались эффективно адаптированными к распознаванию людей по их портретам. Любое цифровое изображение может быть представлено в виде вектора в пространстве признаков. Если изображение описывается w Xh пикселями, размерность простейшего векторного пространства, к которому данный вектор принадлежит, будет равна произведению w на h и, соответственно, базис подобного векторного пространства будет состоять из wx h векторов.

Однако в связи с тем, что все человеческие лица схожи между собой (овальная форма с носом, ртом, глазами и т.д.), все векторы, описывающие изображения лиц, будут размещаться в узко ограниченной области данного векторного пространства. Поэтому при решении задачи распознавания людей по портрету описание и хранение всего векторного пространства не рационально.

Таким образом, встает вопрос построения пространства меньшей размерности, в котором изображения человеческих лиц описываются более компактно. Одним из вариантов является пространство, базисными векторами которого служат главные компоненты всех содержащихся в нем изображений лиц. Размерность такого пространства заранее определить невозможно, но она намного меньше размерности векторного пространства всех изображений. Главной целью метода анализа главных компонент является значительное уменьшение размерности пространства признаков таким образом, чтобы оно как можно лучше описывало "типичные" образы, принадлежащие множеству портретов. В случае применения данного метода для идентификации лиц такими образами будут служить обучающие изображения. Иными словами, при помощи анализа главных компонент удается выявить всевозможные изменчивости в обучающем наборе изображений лиц и описать эту изменчивость при помощи нескольких переменных. Эти переменные представляют собой wx h -размерные векторы, которые называются собственными. Если преобразовать подобные векторы в изображения, то получаемые файлы будут отражать главные компоненты представленного обучающего множества (также называемые собственные лица).

За счет снижения размерности пространства базисных векторов, в котором находятся изображения повышается скорость и достоверность распознавания.

Полученный на основе представительной обучающей выборки набор собственных векторов или лиц (рис. 8.18) используется при кодировании всех остальных изображений, которые представляются для хранения в базе взвешенной комбинацией этих собственных векторов (рис. 8.19). Используя ограниченное количество собственных векторов, можно получить улучшенную аппроксимацию к входному изображению, которая затем хранится в базе данных в виде вектора весов, служащим одновременно ключом поиска.

Рис. 8.18. Набор из пяти собственных векторов

Рис. 8.19. Описание исследуемого изображения

Математика обоснования полноты набора собственных векторов и его минимизации является сегодня интенсивно развивающимся научным направлением. Эксперименты показывают достижение точности распознавания в 99%. Такой подход особенно интересен в охранных системах, когда набор собственных векторов можно составить автоматически по набору допущенных лиц.

Рис. 8.20. Уменьшение размерности исходного вектора переносом в базу собственных векторов

Рис. 8.20 иллюстрирует процесс кодировки и дешифрования описания нового лица.

Пусть некоторый объект определен как вектор в n-мерном пространстве. Например, U может быть изображением, а в качестве компонент ui могут выступать пиксели. В этом случае n равно числу пикселей изображения.

Пусть есть группа объектов , где i = 1…m. Тогда средний объект группы определяется следующим образом: , где l = 1...n.

Ковариационной матрицей для данной группы изображений будет симметричная квадратная матрица с элементами , вычисляемыми по формуле: .

Базис собственных объектов , где будем рассчитывать из соотношения , где и собственные значения ковариационной матрицы и соответствующие им собственные вектора.

Таким образом, по входной последовательности объектов произвольной природы определяется базис из собственных объектов, и любой другой объект из этой последовательности может быть представлен в виде вектора весовых коэффициентов, являющимися координатами данного объекта в полученном базисе собственных объектов. Формула для нахождения координат разложения объекта u: .

Объект u может быть восстановлен в любом подпространстве размерностью m1 пространства собственных векторов по формуле: .

Тюрк и Г. Тентланд провели комплексное исследование данного метода на базе данных, состоящей из портретов 16 человек, изображения которых были получены при различных условиях освещения, при съемке с различных расстояний, при разных поворотах головы - всего 2500 фотографий. Однако полученные изображения были одинаковы по таким параметрам, как мимика, детали лица (борода, очки и т.д.). При изменении освещения, ракурса съемки и масштаба точность распознавания составила 95, 85 и 64% соответственно. Кроме того, середина лица выделялась для уменьшения негативного эффекта от возможных изменений в прическе и фоне. По скорости работы реализованная на рабочей станции SUN 3/160 система приближалась к режиму реального времени.

Подобно предыдущему методу в вероятностных моделях также используется обучающий набор. При этом формируются два класса из всех вариантов представления объектов: внутри объектной и внешней изменчивости, т.е. отбираются признаки, по которым все портреты делятся на два класса: 1) портрет данного человека, 2) все другие портреты. Функции плотности вероятности для каждого класса оцениваются при помощи упомянутого выше обучающего множества и впоследствии используются для вычисления меры схожести, которая таким образом основывается на полученных опытным путем вероятностях. Кроме того, для получения более точных результатов иногда используется вероятностная модель некоторого физического процесса, при помощи которой и формируется окончательная мера схожести двух изображений.

При распознавании лиц определяют два класса изменений изображений лиц: внутри объектный Qi (различные выражения лица одного человека) и вне объектный QE (разница во внешности двух различных индивидуумов). Тогда мера схожести в терминах теории вероятности может быть выражена следующим образом:

S(Ii,l2)=P(d(Ii,l2)6 Qi)=P(Oi|d(Ii,l2)), где P(Qi|d(Ii,l2)) - вероятность, полученной по правилу Байеса на основе опытов с использованием оценки подобия P(d(Ii,l2)l ^i) и P(d(Ii,l2)| Оi)" вычисленных из обучающих данных с использованием эффективного под пространственного метода оценки плотности многомерных данных.

Кроме того, используют новое представление для различий в сравниваемых изображениях d(Ii,l2), которое сочетается как с пространственными (X,Y), так и яркостными (I) компонентами в унифицированной XYI структуре (не похожей на предыдущие подходы, которые по существу обрабатывали форму и структуру независимо). В частности, Ii моделируется трехмерной деформируемой физической поверхностью (или множеством) в XYI-пространстве деформируемом в соответствии с привлекаемыми "физическими силами", прилагаемыми поверхностью I.

Динамика подобных систем эффективно решается при использовании "аналитических методов вибрации", получая трехмерное поле соответствия для искривления Ii в 1z. Дополнительную используют параметрическое представление d(Ii,Iz)= U, где U - это спектр модальных амплитуд окончательной деформации. Это множество методов подгонки для соответствия изображений может рассматриваться в более общей формулировке, которая, в отличие от оптического потока, не требует постоянной оценки яркости.

В методе сопоставления с эталоном процесс распознавания разбивается на части, соответствующие отдельным чертам лица. Каждая фотография, поступающая на вход распознающей системы, должна представлять собой фронтальное изображение лица человека с определенным для конкретной базы данных количеством масок, представляющих основные для идентификации регионы лица (например, глаза, нос, рот и нижняя часть лица). Кроме того, расположения данных масок должны быть одинаково нормализованы (например, относительно положения глаз) для всех изображений в базе данных.

Во время процесса распознавания, когда части входного изображения по очереди сравниваются с частями изображения, хранящегося в базе, используется вектор, отражающий результат сравнения в баллах (один балл за каждую совпавшую черту лица) и вычисляемый путем нормализованной взаимной корреляции (впрочем, методы сравнения могут быть разными). После чего входное изображение классифицируется в соответствии с максимально набранными баллами. Имеются также некоторые разновидности данного подхода, например с изменяющимися в процессе сравнения эталонами. В небольших по объему исследованиях база 27 человек выделили четыре региона лица для сравнения: глаза, нос, рот и нижняя часть лица.

Рис. 8.21. Эталоны некоторых областей лица.

Другой вариант использует изолинии, т.е. кривые одного уровня яркости, которые хоть и не принадлежат к трехмерным структурам, но передают изображение рельефа лица. Сначала, применив к изображению лица на черном фоне оператор Собела и некоторые другие шаги по предобработке, получают границы области лица, а затем при помощи 8-битовой гистограммы яркости разделяют контуры головы на изолинии. После этого уже используется процедура сопоставления с эталоном.

Принципы функционирования систем, построенных на нейронных сетях (иногда их также называют авто ассоциативной памятью), заключаются в том, чтобы в ответ на некоторую входящую совокупность данных, называемую "ключом", выдать на выход хранящуюся в сети и наиболее близкую к входной по значениям совокупность такой же размерности или ее код. В случае распознавания лиц ключом служит изображение лица человека. Линейная авто ассоциативная память представляет собой один слой нейронной сети. Каждый нейрон этого слоя ассоциируется с одним компонентом, получившимся из разложения изображения лица вектора (аналогично методу собственных лиц). Таким образом, при размере изображения w Х h пикселей каждый слой данной сети будет содержать w X h нейронов. Кроме того, каждый нейрон связан со всеми остальными и линейная авто ассоциативная память строится при вычислении (w х h) весов связей этой нейронной сети. Данные веса определяются на этапе обучения, при котором несколько обучающих изображений, представленных авто ассоциативной памяти линейно, запоминаются в ней. Нейронная сеть, как правило, входит в состав системы осуществляющей внешнюю подготовку векторов к распознаванию. Изображение оцифровывается и кодируется в виде вектора; каждая координата вектора располагается в отдельной ячейке, связанной со всеми остальными ячейками (обучение или настройка системы происходит путем изменения весов связей между ячейками); изображения лиц фильтруются через нейросеть, при этом входное изображение трансформируется в ближайшее запомненное, которое или указание на нее и подается на выход.

На данный момент этот подход является одним из самых популярных. Однако оценить вычислительную сложность алгоритмов вне вычислительных машин с параллельной архитектурой затруднительно.

Тем не менее, сообщается о достаточно эффективном использовании нейронных сетей в области анализа изображений лиц по трем направлениям: классификация людей по полу, непосредственно распознавание и определение эмоциональных выражений лиц.

Используются алгоритмы, основанные на самоорганизующихся картах (SOM), сворачиваемых сетях (Convolutional Networks) и многослойных персептронах, изменяются числа классов, по которым проводилось распознавание, размерности самоорганизующихся карт, уровни квантизации SOM.

Эксперименты проводились на изображениях из ORL-базы с использованием 5 изображений одного человека для обучающего набора и столько же для тестового - всего по 200 изображений в обоих множествах. Наилучшая достоверность распознавания составила 94,25%.

Метод анализа оптических потоков в целях идентификации лиц признано довольно эффективным, но дорогим с вычислительной точки зрения. Сравниваемые изображения А и В превращаются в многослойные усеченные пирамиды путем многократного сворачивания четырех соседних пикселей в один со средним арифметическим значением яркости. На соответствующих слоях двух разных пирамид производят поиск подходящих между собой наилучшим образом групп пикселей. Для каждого блока изображения А определяется вектор смещения. Этот вектор уточняет смещение между центрами блока из А и наиболее близким к нему блоком из В. Аналогично строятся векторы и для изображения В. Анализируя получившиеся системы векторов, можно сделать вывод о степени схожести сравниваемых изображений.

Среди современных подходов к разрешению проблемы распознавания лиц выделяется также метод сопоставления графов. Объекты (изображения лиц) представляются в виде графов с вершинами, помеченными в соответствии со значениями локального энергетического спектра, и гранями с весовыми значениями, соответствующими некоторым геометрическим расстояниям. Хотя в основе данного подхода лежит сравнение одного изображения, представленного графом с другим, на практике прибегают и к механизму нейронных сетей для осуществления подобного процесса сравнения.

Системы, основываются на архитектуре динамических связей (Dynamic Link Architecture - DLA). С ее помощью предпринимают попытку решить несколько проблем искусственных нейронных сетей, где самой острой проблемой является выражение синтаксических связей в нейронных сетях. DLA использует синоптическую пластичность и может сразу же формировать наборы нейронов, сгруппированных в структурированные графы, и сохранять преимущества нейронных систем. DLA позволяет определять изображения с помощью объектно-независимого стандартного набора определителей черт, автоматического обобщения на больших группах симметричных операций и получения знаний о новом объекте путем однократного обучения, уменьшая время, затрачиваемое на обучающие шаги. Распознавание инвариантных объектов достигается с учетом фона, разложения, искажения и размера при выборе набора элементарных характеристик, которые будут максимально надежными при подобных изменениях. В работе используются преобразования Габоровских вейвлетов. Вейвлеты служат детекторами черт, характеризуя их своими частотой, местоположением и направлением. Кроме того, применяются два нелинейных преобразования как вспомогательные в процессе сравнения.

Для работы DLA требуются как минимум два уровня - пространство изображений и пространство моделей. Пространство изображений соответствует основным областям коры головного мозга, отвечающим за зрение, а модельное пространство, с биологической точки зрения, соответствует меж височной части коры.

Пространство изображения состоит из двухмерного массива узлов (А-а), где а = 1..F. Каждый узел с позицией х состоит из F нейронов (х,а), определяющих различные черты. Метка, а используется для обозначения различных типов черт. Общее количество типов черт определяется для данного узла при сплетении изображения с подмножеством волновых функций.

Соседние узлы соединяются связями, кодирующими информацию о локальной топологии. Изображения представляются графом атрибутов. Атрибуты, привязанные к узлам графа, являются векторами энергии локальных определителей черт. Каждый объект изображения представлен подграфом в пространстве изображений.

Пространство моделей представляет собой собрание всех графов атрибутов, которые являются идеализированными копиями подграфов пространства изображений. Между двумя пространствами имеются возбуждающие соединения, которые хранят черты а. Эти соединения между пространствами возникают тогда и только тогда, когда черты относятся к соответствующему типу.

Системы с DLA основываются на формате данных, позволяющем закодировать информацию в атрибутах, установить связи в пространстве изображений и передать информацию в пространство моделей без прямого указания ее позиции в пространстве изображений.

Структура сигнала определяется тремя факторами: входным изображением, случайным спонтанным возбуждением нейронов и их взаимодействием с ячейками того же или соседнего узлов в пространстве изображений. Связь между нейронами кодируется в форме временной корреляции и вызывается возбуждающими взаимодействиями между изображениями. Всего имеется четыре типа связей, использующихся при распознавании и представлении объектов:

связи всех узлов и ячеек, которые принадлежат одному объекту;

связи, выражающие отношения соседства с изображением объекта;

связывающие индивидуальные ячейки черт с чертами, представленными в различных позициях;

связывающие точки в графе изображения и графе модели друг с другом.

Основной механизм DLA, в дополнение к параметрам соединения между двумя нейронами, является динамической переменной (J) между двумя ячейками (i,j). J-переменная играет роль синоптических весов для передачи сигнала. Параметры соединения только участвуют в сжатии J-переменных и могут быть плавно изменены путем длительной синоптической пластики. Веса связей J1j являются предметами процесса стремительной модификации и контролируются сигналами взаимодействия нейронов х и j.

Отрицательные сигнальные взаимодействия приводят к уменьшению, а положительные - к увеличению J"j, при отсутствии всяких отношений JX, плавно переходит к состоянию покоя. Быстрая самоорганизация является критической для DLA. Каждое запоминаемое изображение формируется путем подбора точек прямоугольной решетки как узлов графа. Решетка позиционируется на сохраняемое изображение и его комбинации пикселей (jets) запоминаются в соответствии с позицией каждого узла решетки и классом изображения. Распознавание нового изображения имеет место при его трансформации в решетку, и все запомненные графы сравниваются с ним. Настройка DLA происходит при установлении и динамическом изменении связей между вершинами в пространстве моделей.

В течение процесса распознавания объект выбирается также из пространства моделей. Копия модели графа размещается в центре пространства изображений. Каждая вершина в модели графа соединяется с соответствующей вершиной графа изображения. Качество сравнения оценивается при помощи ценовой функции.

Размер графа изображения зависит от некоторого фактора, в то время как центр графа зафиксирован, и если общая цена снижается, то новое значение размера графа принимается. Этот процесс повторяется до тех пор, пока не будет найдена оптимальная цена. Распространение и оценка размера повторяются для улучшения уровней разрешения и учета большинства из представленных изображений.

Распознавание производится после определения полной цены для каждого объекта. В случае если сравнение одной модели лица будет значительно лучше всех остальных моделей, лицо считается опознанным.

Таким образом, система идентифицирует человеческое лицо путем сопоставления выделенного из него графа с набором хранящихся графов. Есть результаты сравнения 300 изображений лиц с другими 300 изображениями тех же людей, полученными из базы данных. Точность распознавания в экспериментах составила 97,3%.

Организация баз данных. Все рассмотренные методы, применяемые для решения задачи поиска лиц в базах данных, можно разбить на три отдельных класса, в зависимости от способов организации базы и проведения в ней поиска, а также процедуры сравнения хранящихся в ней данных.

Первый тип - изображения хранятся в базе, обычно в развернутом виде, и одновременно служат ключами при поиске. В процессе распознавания изображения поочередно извлекаются из базы и сравниваются с искомым. Данная организация запоминающих и сравнивающих структур имеет один очень существенный недостаток - огромное время поиска. Она реально допустима при небольшом объеме лиц в охранных системах.

К методам распознавания, ориентированные на данный тип базы, можно причислить прежде всего метод анализа оптических потоков, хотя могут работать и другие методы не требующие больших затрат времени на предварительную подготовку изображений.

Второй тип базы данных хранят как само изображение, так и некоторое его описание, служащее ключом поиска. Данное описание, как правило согласовано с методом распознавания, используемым в системе. Для данных описаний установилось не сколько определений – сигнатура, ключ и т. д. Процесс поиска в таких системах происходит в два этапа: сначала проверяются сигнатуры и затем для близких к искомому, извлекаются и сравниваются непосредственно сами изображения. Недостатки данных систем необходимость вычисления данного ключа для каждого изображения при пополнении базы, а затем хранение его в базе. Однако при этом достигается существенный выигрыш во времени поиска. Процедуры поиска построенные на методах геометрических характеристик и сравнения с эталоном хорошо согласованные с данным типом баз данных.

Третий тип предполагает отсутствие близко расположенных (по времени доступа) файлов описаний изображений. Предполагается достаточный объем сигнатур для проведения сравнительного анализа без привлечения по пиксельного описания изображений. Базовыми методами сравнения являются такие методы, как анализ главных компонент, нейронные сети, вероятностные методы и некоторые другие. Изображения кодируются некоторым вектором, который служит одновременно и ключом поиска. При необходимости оценка изображения может быть восстановлена по своему вектору и некоторым данным, вычисленным в процессе обучения системы. Основной недостаток подобных систем - непредсказуемость работы и уменьшение точности распознавания при поиске в очень больших базах данных (от 10 000 объектов и выше), кроме того, при постоянном пополнении базы система нуждается в своевременном дополнительном обучении на расширенной выборке.

Рассмотренные методы не исчерпывают всего разнообразия применяемых операций при распознавании близко расположенных в пространстве признаков объектов, однако они дают довольно богатый материал для формирования углубленного понимания путей решения проблем распознавания образов.

Принципы построения и преимущества системы лиц распознавание объекта по его трехмерной модели -3D-распознавание. Наиболее востребованные из них - человек и автомобиль. Одним из сложных, но перспективных типов объектов для распознавания является лицо человека, выделяемое из панорамного изображения.

Если вместо двумерного изображения используются реконструированные трехмерные (3D-) модели объектов, то достигается принципиально более высокая точность распознавания. Вероятность ошибок значительно уменьшается по сравнению с двумерным распознаванием. Существенно снижаются требования к ракурсу, в котором снят объект. Достоверность двумерного распознавания катастрофически падает при повороте головы на 15 градусов вправо, влево, вверх или вниз. При 3D-распознавании допустимый угол отклонения головы от фронтального ракурса может достигать 45 градусов. Если полученная по изображению модель и хранящееся в базе данных эталонное изображение получены в разных ракурсах, то можно повернуть модель программными средствами. Новые возможности для решения фундаментальных проблем распознавания дает расстановка параметрических точек. На трехмерной модели она делается быстро и очень эффективно. Точки имеют не двумерные координаты, а трехмерные, их расстановка производится с высокой точностью и быстро - комплекс из 68 антропологических точек расставляется за доли секунды.

3D-распознавание не требует фиксации человека, он может быть снят на ходу. Глубина и ширина зоны, которая должна находиться под контролем синхронизированных телекамер, - несколько метров. Следовательно, захват лиц может проводиться на открытой местности, в людском потоке. Открываются широкие возможности по применению на улицах города, на вокзалах, в торговых центрах и т.д.

Компания «Вокорд» разработала датчики изображения высокого разрешения, которые используются для получения изображения. Это телекамеры Vocord NetCam с матрицей от 1 до 5 мегапикселов, частотой кадров до 200 кадров/с, динамическим диапазоном до 70 дБ и соотношением «сигнал-шум» порядка 60 дБ.

Для эффективного распознавания необходимо передать большой массив информации на сервер, который отведен для этой процедуры.