Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

2047

.pdf
Скачиваний:
3
Добавлен:
07.01.2021
Размер:
2.77 Mб
Скачать

понденты выборки «мужчины»(3) отличны в своем представлении действия «кредит» нежели респонденты выборки «женщины»(4).

По подробно рассмотренному в первой задаче способу ассоциации были условно сгруппированы в рассматриваемых выборках. Вновь получили упорядоченные выборки по означенным шести признакам. Отличия в представлении действия «кредит» значительны и имеют тенденцию.

При попарном сравнении были получены следующие выводы: у женщин более выражен и эмоционально представлен положительный оттенок. Например, более 60 % женщин из «хороших» заемщиков дали такие ассоциации, как «мечты» и «удовольствие». Тот же положительный оттенок у мужчин выражен через более рациональные понятия: «будущее» и «работа». Слова-значения, имеющие нейтральный оттенок или отражающие рациональное поведение, значительно чаше упоминались мужчинами, нежели женщинами. Более 50 % мужчин связывают кредит с негативной стороной: «зависимость», «мошенники». Большим значениям относительных частот встречаемости ассоциаций, означающих упрощение решения проблемы, а также означающих преувеличение своих возможностей, для респондентов выборки «женщины» соответствует значительно меньшие у респондентов выборки «мужчины».

Задача 3. Выявление различий в уровне исследуемого признака – отношение респондентов к действию «кредит» в соответствующих выборках по возрасту и социальному статусу.

Следует учесть на основании предыдущих выводов, что данное исследование следует проводить внутри направленной выборки «мужчины» и «женщины» из выборки респондентов с «хорошей» кредитной историей. При попарном сравнении получены значимые различия в уровне признака «образование», которые удалось подтвердить между респондентами из выборок: «мужчины до 35 лет, имеющие средне-специальное образование»(5) и «мужчины до 35 лет, имеющие высшее образование»(6); «женщины до 25 лет, имеющие высшее образование»(7) и «женщины до 25 лет, имеющие среднеспециальное образование»(8); «женщины до 35 лет, имеющие высшее

образование»(9) и «женщины до 35 лет, имеющие средне-специальное образование»(10);

Значимые различия в уровне признака «возраст» удалось подтвердить между респондентами из выборок: «женщины до 25 лет, имеющие высшее образование»(11) и «женщины до 35 лет, имеющие

40

высшее образование»(12); «женщины до 25 лет, имеющие высшее образование»(13) и «женщины старше 45 лет, имеющие высшее образование»(14); «женщины до 35 лет, имеющие высшее образование»(15) и «женщины старше 45 лет, имеющие высшее образование»(16); «женщины до 25 лет, имеющие средне-специальное образование»(17) и «женщины старше 45 лет, имеющие средне-специальное образование»(18); «женщины до 35 лет, имеющие средне-специальное образо-

вание»(19) и «женщины старше 45 лет, имеющие средне-специальное образование»(20).

Среди мужчин разного возраста так же следует отметить наличие разного представления действия «кредит»: «мужчины до 35 лет, имеющие высшее образование»(21) и «мужчины старше 45 лет, имеющие высшее образование»(22); «мужчины до 25 лет, имеющие среднеспециальное образование»(23) и «мужчины до 35 лет, имеющие сред- не-специальное образование»(24); «мужчины до 25 лет, имеющие средне-специальное образование»(26) и «мужчины старше 45 лет, имеющие средне-специальное образование»(27).

Таким образом, доказанные гипотезы о наличии значимых различий позволяют говорить о возможности идентификации и интерпретации выделенных групп, а так же следует считать социальнодемографические признаки и признак «кредитная история» значимыми для разделения групп на основании консолидации мнений в выделенных группах. Данное положение определяет структуру типологии СПП.

Для осуществления третьей составляющей алгоритма построения СПП, а именно идентификации и интерпретации выделенных структур СЗП, как правило, предлагаются методики, в основе которых лежат методы статистического анализа данных, ориентированных на проверку заранее сформулированных гипотез [97, 98, 55].

Для того чтобы снять субъективную составляющую подхода в выделении СЗП, как наиболее важный момент подтверждения состоятельности выдвигаемых положений работы о наличии существенных различий значимых для разделения групп (на основании консолидации мнений в выделенных группах по отношению к действию «кре-

дит»), необходимо перейти к разработке автоматизированной системы, на базе методов, позволяющих находить закономерности самостоятельно и строить гипотезы о взаимосвязях. Система на основании полученных выводов должна реализовывать возможность создания анкет для осуществления классификации КЗ.

41

Таким образом, в соответствии с классификацией, представленной на рис. 2.1, методы, лежащие в основе модуля, решающего задачу формирования анкеты КЗ, как инструментария извлечения знаний, ориентированы на аналитика; фактические данные получены путем анкетирования на естественном языке; анализ СПП следует осуществлять в соответствии с полученной структурой типологии КЗ с использованием методов психосемантики.

3.2. Разработка алгоритма извлечения и структурирования знаний с целью автоматизированного формирования анкеты КЗ

Применительно к поставленной задаче анализа СПП были рассмотрены работы, посвященные аналогичным задачам [55, 57, 93, 97, 98, 151], из которых следует, что в качестве начального этапа системного анализа подобных объектов используются различные виды группировки или разбиения множества на подмножества, теоретической основой которых всегда является некоторое отношение эквивалентности.

Для обозначения этой процедуры, в том числе в области анализа данных в социальной и экономической психологии, обычно используются термины: типология, кластеризация и классификация [45].

В работе следует придерживаться следующих положений, принятых в данных областях исследований:

«Разбиение, классы которого описаны через признаки, использованные при его построении, называют типологией или типологической группировкой» [138];

«Тип – это совокупность исследуемых объектов, гомогенная относительно заданного множества признаков. А типология – это совокупность типов, выделяемых на множестве исследуемых объектов. Тип может быть представлен некоторым усредненным представите-

лем» [138];

«Выход при разбиении множества исследуемых объектов на уровень гомогенности (однородности) означает, что не осталось способов различать элементы внутри классов, то есть исчерпан набор признаков, порождающих новые разбиения» [98];

«Реальные отличия между двумя объектами имеют две составляющие: интертипные отличия, имеющие системный комплексный качественный характер; отличия внутри типа, имеющие случайный, количественный характер» [98].

42

Далее, использование типологии кредитных заемщиков позволит перейти к их классификации на ее основании, при утверждении, что если «типологическая группировка описана еще и в терминах какойлибо другой системы признаков, относящихся к данному явлению, то есть устанавливает в явной форме теоретические связи между различными сторонами изучаемой системы, то ее называют классификаци-

ей» [45].

В терминах исследуемой предметной области следует построить типологию КЗ, на основе которой будет формироваться анкета КЗ, посредством которой и будет определяться СПП конкретного соискателя для оценки возможных рисков, связанных с субъективным кредитным поведением.

Такую задачу следует отнести к задаче кластеризации и построения классификатора в соответствии с полученной типологией КЗ [72].

При выборе метода выявления типологии как задачи кластеризации необходимо учитывать, что: получение кредита физическим лицом является действием, отношение к которому проявляется через выявленные посредством ассоциативного семантического эксперимента – СПП в связи с анкетируемыми признаками: демографическими (пол, возраст), социальными (семейное положение, образование); признаки имеют разные параметры, имеют разную размерность, имеют дискретные непараметрические распределения, которые задаются таблично; признаки не должны иметь преимуществ, то есть признак «мужчина» не лучше и не хуже признака «женщина» равно, как и полученные ответы на вопросы анкеты; ассоциативные ряды содержат значительно отличное количество ассоциаций у респондентов и имеют грубый шум – единожды встретившиеся ассоциации; группировки, определяющие структуру типологии, содержат разные количества респондентов; автоматизированная система формирования анкеты должна давать возможность автоматически формировать анкету (по умолчанию), и при этом должна быть прозрачная и открытая, чтобы осуществить возможность активного вмешательства ЛПР – аналитика, формирующего анкету КЗ.

По совокупности перечисленных особенностей предметной области исследований были проанализированы работы, посвященные вопросам использования методов выявления типологии, изложенные в работах [24, 32, 33, 151]. Из них следует, что методология интеллектуального анализа данных (ИАД или наиболее часто применимое Data

43

Mining) наиболее актуальна на данный момент и отвечает обозначенной проблеме.

Технологии Data Mining, в том числе, реализуют и наиболее традиционные методы, основанные на выдвижении гипотез и их проверки статистическими критериями. Такие методы выделения типологий в социальных экономических и психологических исследованиях подробно изложены в работах [45, 40, 97, 98, 138]. Так же проблемы выделения типологий решаются методами классификации и снижения размерности, например, факторным и дискриминантным анализами [5, 6, 7, 56, 133]. В рассмотренных работах уделяется внимание кластерному анализу, как наиболее отвечающему вопросам выделения типологии на основе анализа данных, но значительно менее широко используемом в области социологических и психологических исследований из-за сложности его реализации. Подробно материал, посвященный кластерному анализу, изложен в работе [92].

Исходя из перечисленных выше особенностей следует, что наибольший интерес представляют работы, посвященные вопросам дискретной математики [9], а именно теории множеств, математической логики, теории графов. Проблемы наличия противоречий при осуществлении процедуры кластеризации рассмотрены в работе [109].

Далее, для собственно реализации автоматизированной системы построения анкеты КЗ на основе выделения типологии с учетом перечисленных особенностей, изучены вопросы разработки интеллектуальных информационных систем, изложенные авторами в работах [44, 116, 152]. Отметим мнение, что «выделение объектов и их совокупностей – естественный (или) даже единственный способ организации нашего мышления» [100].

Особое внимание было уделено работам, в которых подробно описаны наиболее актуальные аспекты применительно к данной проблеме, а именно типичные модели представления знаний, способы обработки знаний, системы управления знаниями касаемо семантиче-

ских сетей [9, 24, 33, 147].

Так как всем перечисленным выше особенностям в большей мере отвечает методология искусственного интеллекта, реализующая, в том числе технологии Data Mining, основанная на графовом представлении, наибольшее внимание следует уделить работам, положения которых взяты за основу для решения обозначенной проблемы [9, 24, 33,146, 147].

44

Таким образом, данную задачу следует определить как задачу кластеризации для определения СЗП, образующих СПП в соответствии с полученной типологией КЗ на основе положений теоретикомножественного представления. И далее, на основе сформированной анкеты КЗ, как задачу построения классификатора, посредством которого и будет определяться СПП конкретного соискателя для оценки возможных рисков, связанных с субъективным кредитным поведением.

В соответствии с полученной в ходе первого этапа семантического эксперимента (ассоциативного эксперимента) структурой СПП имеем множество существенных признаков Z R Z1 Z2 Z3 Z4, где

R r1,r2 ,

r1 1 , респондент имеет «хорошую» кредитную

 

историю;

 

r2 0, респондент имеет «плохую» кредитную ис-

Z1 z1,z2 ,

торию.

z1 1, респондент мужчина;

Z2 z1,z2 ,

z2 2, респондент женщина;

z1 1, респондент имеет среднее спец. образова-

 

ние;

Z3 z1,z2 ,

z2 2, респондент имеет высшее образование.

z1 1, респондент имеет детей;

Z4 z1,z2,z3,z4 ,

z2 2, респондент не имеет детей;

z1 1, возраст респондента до 25 лет;

 

z2 2, возраст респондента от 25 до 35 лет;

 

z3 3, возраст респондента от 35 до 45 лет;

 

z4 4, возраст респондента свыше 45 лет.

Имеем множество групп респондентов

U U1 U2 Ui Um 1 Um,m 1,...,64,

Ui ui1 R,ui2 Z1, ,ui5 Z4 .

Имеем множество респондентов

Y y1, ,yN , yj Ui & yj Ul ,l i, j 1, ,N,i 1, ,64.

Имеем множество ассоциативных рядов, отличных по количеству данных респондентами СПП,

aj aj1, ,ajk , aj1, ,ajk , k 1, ,Kmax ,

45

Kmax – максимальное количество СЗП иначе длина ассоциативного ряда.

Каждому респонденту ставится в соответствие ряд СЗП yj aj.

Имеем мультимножество Aˆ x1 a1 , ,xM aM ,

M – количество уникальных векторов aj , x1, ,xM – количество повторений a1, ,aM соответственно.

Необходимо построить СПП в соответствии с выявленной экспериментально и статистически доказанной структурой, характерное для типов КЗ, отличных по существенным социальнодемографическим признакам и признаку «хорошая/плохая» кредитная история, то есть найти кластер, который формируется для каждой Ui из: характерных только для определенного типа кредитных заемщиков СПЗ; принадлежащих не единственному типу, но наиболее характерных для определенного типа кредитных заемщиков СПЗ.

Для решения задачи выявления СПП для типов заемщиков, отличных по существенным социально-демографическим признакам и признаку «хорошая»/«плохая» кредитная история, и поддержания его в актуальном состоянии представим исходные данные в виде двух ориентированных графов (для мужчин и женщин соответственно), так что взаимосвязанные социально-демографические признаки образуют взвешенные ориентированные деревья TM TMV,TM E для мужчин

и TWm TWm,TWmE для женщин.

Корнем дерева является «пол» (другими словами нулевой уровень иерархии), узлами дерева будут значения социальнодемографических признаков, при чем на одном уровне иерархии рассматриваются значения одного признака. В качестве листьев дерева будут выступать значения «хорошая»/«плохая» кредитная история. Весовые коэффициенты отражают количество респондентов с определенными социально-демографическими признаками и «хорошей»/«плохой» кредитной историей. Пример представлен на рис. 3.2.

Добавим к деревьям TM и TWm множества вершин AM и AWm, соответствующих выявленным в ходе эксперимента ассоциациям. Добавленные вершины могут быть связаны дугами более чем с одним узлом нижнего уровня иерархии ориентированного дерева, соответственно нарушается свойство «любые две вершины соединены единственной простой цепью», и в таком случае мы имеем дело с ориентированными графами GM GMV,GM E и GWm GmV,GWmE соответст-

46

венно, TM GM и TWm GWm. Весовые коэффициенты добавившихся дуг соответствуют количеству респондентов, указавших соответствующую конечной вершине ассоциацию.

 

 

 

50

Муж.

28

 

 

 

 

 

 

 

во

 

сс

 

 

 

 

 

31

 

 

 

 

 

 

 

 

 

 

 

25

30

35

40

25

30

 

35

40

25

6

 

 

 

 

 

 

 

 

 

 

G

B

G

B

 

 

 

G

B

 

 

 

 

 

 

 

 

 

Рис. 3.2. Пример ориентированного дерева TM , где корень – мужчины; 1-й уровень – типы образования; 2-й уровень – возрастные категории; 3-й уровень – тип кредитной истории («хорошая» G/«плохая» B кредитная история)

Необходимо выявить такое подмножество ассоциаций, исключение которых из рассматриваемого ориентированного графа позволит получить ориентированное дерево – граф, в котором любые две вершины соединены единственной простой цепью. Полученное дерево будет содержать в качестве листьев характерные ассоциации – СЗП, уникально описывающие каждую социально-демографическую группу. Другими словами получим СПП для каждого типа заемщиков.

Анализируемые данные, полученные в результате ассоциативного эксперимента (как социального или психологического эксперимента), свободного от навязывания какими-либо стимулами, имеют отличительные особенности:

­данные имеют грубый шум – единожды встретившиеся ассоциации;

­длины ассоциативных рядов, то есть количество ассоциаций, данных разными респондентами значительно отличны (в данном эксперименте от 5 до 96 ассоциаций);

­количество респондентов, представляющих различные типы заемщиков значительно отличны (в данном эксперименте от 6 до 95 человек);

47

­структура СПП может меняться в зависимости от признаков как в сторону ее расширения, так и уменьшения количества признаков, определяющих структуру СПП;

­положение признаков на уровне иерархии может меняться в зависимости от принятой структуры СПП кроме наиболее существенных признаков (в данном случае «пол», и «хорошая»/ «плохая» кредитная история);

­количество СЗП, определяющих СПП для определенного типа КЗ и формирующих анкету, может быть задано по умолчанию или меняться в зависимости требований ЛПР.

Перечисленные особенности обуславливают наличие противоречий и необходимость решения вызванных ими проблем по умолчанию или действиями согласно плану активного вмешательства ЛПР.

В данном случае возникает необходимость разработки плана активного вмешательства ЛПР согласно перечисленным проблемам, который реализуется следующим набором решающих правил.

ЛПР может задать порядок подчиненности при построении ориентированного дерева социально-демографических признаков, по умолчанию система принимает решение о построении дерева в том порядке признаков, в котором они хранятся в таблице.

Например:

­Пол –> Возраст –> Образование –> Наличие детей –> Признак возврата кредита;

­Пол –>Образование –> Возраст –> Наличие детей –> Признак возврата кредита;

­Пол –>Образование –>Наличие детей –> Возраст –> Признак возврата кредита, и т.п.

Неизменным в порядке является условие, что признак «пол» является вершиной ориентированного дерева, признаки «хорошая»/ «плохая» кредитная история листьями дерева.

ЛПР задает необходимое количество СЗП для формирования анкеты (по умолчанию 50).

ЛПР задает количество в результирующем наборе СПЗ: ассоциаций, характерных для каждой группы, ассоциаций, встречающихся в группах с одним отличным признаком «хорошая»/ «плохая» кредитная история с максимальной разностью весов с учетом поправочного коэффициента на разные объемы выборок в группах.

ЛПР задает поправочный коэффициент, учитывающий неравномерные объемы выборок в группах (по умолчанию определяется

48

группа с максимальным количеством человек и ей присваивается коэффициент равный единице, остальным – пропорционально количеству человек в группе, для которой определяется поправочный коэффициент).

ЛПР принимает решение о необходимости реализовывать изменение группировки респондентов по набору социальнодемографических признаков, если в начальном наборе групп характерные или смежные ассоциации найдены не для всех.

Для реализации графовой модели типологии КЗ в условиях перечисленных особенностей анализируемых данных и реализации плана активного вмешательства ЛПР, выбран продукционный метод построения систем, иначе систем, основанных на правилах. Продукционные системы (RBS-системы) – системы с правилами типа «если (условие), …то (действие)». Под условием (антецедентом) понимается некоторое предложение-образец, по которому осуществляется поиск в БП, а под «действием» (консеквентом) – действия, выполняемые при успешном исходе поиска (могут быть промежуточными, выступающими как условия и целевыми, завершающими работу системы). Условие является заголовком правила, действие его телом.

Продукционную модель, представленную в форме дерева правил отличает наглядность, высокая модульность и простой механизм логического вывода. Такой подход оправдан еще и тем, что: количество исходов конечно, таким образом можно создать базу с конечным набором правил, описывающих все возможные варианты исходов; возможна реализация прямых (выборка с прямым логическим выводом или «распознай-действуй») и обратных (выборка с обратным логическим выводом или «предположи-проверь») стратегий принятия решений, а также их комбинации; модульное построение – рабочие правила представляют знания в атомарной форме, а операторы можно объединять и редактировать независимо один от другого, обеспечивая простоту их расширения [152].

Для значительной оптимизации временных затрат, необходимых для поиска правил (в основном, это объясняется тем, что в случае возрастания количества правил для решения задачи в тот же период времени уже не возникает линейного роста требуемой вычислительной мощности), предлагается использование древовидных структур, что позволяет создавать очень большие системы, основанные на правилах, не заботясь о производительности [152].

49

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]