Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Новосибирский государственный университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Истомин А.В. Анализ_данных.doc

Скачиваний:

Добавлен:

08.12.2018

Размер:

307.71 Кб

Скачать

☆

<<< < Предыдущая 1 23 / 123 4 5 6 7 8 9 10 11 12 > Следующая >>>

4. Распознавание образов

4.1 Основные подзадачи

Основными подзадачами задачи распознавания являются:

1) создание исходного списка признаков;

2) выбор классов объектов;

3) подготовка таблицы (таблиц) обучения;

4) выбор семейства решающих правил;

5) поиск оптимального (относительно некоторого критерия или критериев) решающего правила в этом семействе;

6) подготовка описаний проб;

7) распознавание проб.

На этапах 1-3 производится выбор и экспликация признаков (см. пособие Красавчикова, 2008) и составление базы данных.

При создании исходного перечня признаков могут быть реализованы два подхода:

А) всестороннее описание объектов, характерное для ситуаций, когда исследователь не знает, из каких признаков должен быть составлен окончательный список (информативная система признаков), по которому будет производиться распознавание проб. Поэтому он отбирает такие признаки, которые, в принципе, могут содержать полезную информацию (хотя, на первый взгляд, их связь с решаемой задачей может быть и не очевидна), и полагается в выборе информативной системы признаков на алгоритм и реализующую его программу.

Б) описание объектов, основанное на некоторой геологической модели, для которой список признаков заранее известен.

При выборе классов объектов исходят не только из постановки задачи (например, разбраковать локальные поднятия на перспективные и бесперспективные по результатам интерпретации данных сейсморазведки), но и основываются на геологическом смысле и опыте решения аналогичных задач. Возможно, придётся проводить декомпозицию задачи и осуществлять поэтапное решение в рамках последовательно-параллельной блок-схемы несколько задач распознавания.

При подготовке таблицы (таблиц) обучения следует, по-возможности, избегать появления характеристических признаков, замеренных в шкале наименований (номинальных) с числом принимаемых ими значений, превосходящим два, поскольку они резко ограничивают выбор алгоритма распознавания. Они могут содержать весьма существенную информацию, но лучше, чтобы они не входили в список характеристических признаков. Обычно, по значениям таких признаков формируются классы.

Выбор семейства решающих правил не является формальной процедурой. Однако, при этом выборе есть и формальные требования. Например, если среди признаков есть номинальные или ранговые, то можно использовать только те алгоритмы, которые способны работать с информацией, представленной в качественных шкалах.

Одним из главных критериев выбора решающего правила является его «простота». Практика показала, что предпочтение следует отдавать более простым решающим правилам. Если среди «простых» решающих правил (причём, доступных исследователю в программной реализации) не удаётся найти способного справиться с поставленной задачей (или, в случае (а), радикально сократить размерность описания), то переходят к более сложным и т.д.

Формализовать понятие простоты не так-то просто! В математической логике и теории алгоритмов есть целое направление, связанное с формализацией и изучением простоты математических конструкций, но знакомство с этой тематикой не входит в задачи курса. Поэтому будем относиться к этой проблематике как интуитивно ясной. По всей видимости, примером наиболее простых решающих правил могут служить линейные (см. ниже). Если есть два линейных решающих правила, то более простым, очевидно, является то, которое использует меньшее число признаков.

В случае (а) при выборе семейства решающих правил следует обращать особое внимание на способность радикального сокращения размерности описания.

После выбора семейства проводится поиск решающей функции и соответствующего правила, которые в этом семействе обладают «наилучшим качеством» по отношению к материалу обучения и экзамена.

Для оценки качества решающего правила используются функционалы наподобие нижеприведённого:

Δ(F,λ,ε)=p₁M₁ + p₂M₂ +p₃M₃ + p₄M₄,

где для материала обучения и экзамена

M₁ – число ошибочно распознанных объектов первого класса;

M₂ – число ошибочно распознанных объектов второго класса;

M₃– число отказов для объектов первого класса;

M₄– число отказов для объектов второго класса.

Коэффициенты p_j, j=1,…,4, – «штрафы» за ошибку соответствующего типа. Чем меньше значение Δ(F,λ,ε) (при фиксированных списках объектов обучения и экзамена), тем выше качество решающего правила.

После того, как для всех объектов обучения и экзамена вычислены значения решающей функции, управляющие параметры алгоритма λ, ε могут быть выбраны оптимальным образом, т.е. так, чтобы функционал качества решающего правила достигал минимума:

Δ(F,λ^*,ε^*)=min Δ(F,λ,ε),

где минимум берётся по всем λ, ε и ε>0.

В случае (а) ещё одним (и не менее важным) критерием качества является резко сокращение числа признаков, используемых в распознавании, по сравнению с исходным списком. Это обусловлено тем, что

- малое число признаков уменьшает влияние «информационных шумов», что делает распознавание более надёжным;

- сокращается время на подготовку описаний проб. Так, при распознавании в узлах сеток уменьшается число карт, которые приходится строить;

- появляется возможность содержательно проинтерпретировать решающее правило и т.д.

Описание проб производится по признакам, используемым в оптимальном решающем правиле. В случае (а) это особенно важно, т.к., в частности, существенно сокращается время на подготовку описаний.

<<< < Предыдущая 1 23 / 123 4 5 6 7 8 9 10 11 12 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.09.201975 Кб1иогп 1-8.docx
#
18.11.201979.19 Кб3ИОГП 2 семинар.docx
#
28.03.201649.89 Кб12ионизирующее излучение.docx
#
06.06.201568.87 Кб17ИП 31. Трансактный анализ Э.Берна.docx
#
14.12.2018293.89 Кб1Истина и ТЭ.doc
#
08.12.2018307.71 Кб3Истомин А.В. Анализ_данных.doc
#
15.08.2019475.14 Кб2историки стационар.doc
#
01.08.2019688.44 Кб19История зарубежной журналистики.rtf
#
23.09.2019180.74 Кб6История культуры 1-5.doc
#
08.05.2019533.5 Кб17История мировых религий.doc
#
17.11.201930.75 Кб3к теме 5 (формат 2).doc