Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
598070_078D2_zorina_t_g_slonimskaya_m_a_marketi...doc
Скачиваний:
292
Добавлен:
24.09.2019
Размер:
3.85 Mб
Скачать

5.2.4. Дискриминантный анализ

Дискриминантный анализ – анализ различий заранее заданных групп объектов исследования (потребителей, товаров, брендов и т.п.). Переменная, разделяющая совокупность объектов иссле­дования на группы, называется группирующей.

С помощью дискриминантного анализа изучаются различия между двумя или более группами по определенным признакам. Признаки, используемые для выявления различий между груп­пами, называются дискриминационными переменными. Группирующая переменная должна быть номинальной, т.е. измеряться по номинальной шкале, а зависимые переменные – метрическими. Соблюдение этого условия обеспечивает высокую точность статистических расче­тов. Однако на практике допускается, что группирующая переменная может быть номинальной или по­рядковой, а дискриминационные переменные могут измеряться по шкале любого типа.

Результатом дискриминантного анализа является построение дискриминантной модели (дискриминантной функции), которая имеет вид

D = bo + biX1 + b2X2 + … + bkXk,

где D – группирующая (зависимая) переменная;

bk – коэффициенты дискриминантной функции;

bo – свободный член (константа);

хп – дискриминационные (независимые) переменные.

С помощью этой модели, зная характеристики объекта исследования, можно с определенной степенью уверенности определить его принадлежность к одной из исследованных групп.

Дискри­минантный анализ преследует следующие цели.

1. Определение дискриминантных функций или линейных комбинаций независимых переменных, которые наилучшим образом различают (дискриминируют) ка­тегории (группы) зависимой переменной.

2. Проверка существования между группами значимых различий с точки зрения независимых переменных.

3. Определение предикторов, вносящих наибольший вклад в межгрупповые различия.

4. Отнесение случаев к одной из групп (классификация), исходя из значений предикторов.

5. Оценка точности классификации данных на группы.

Дискриминантный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы:

  • Чем, с точки зрения демографических характеристик, отличаются приверженцы данно­го магазина от тех, у кого эта приверженность отсутствует?

  • Отличаются ли в потреблении замороженных продуктов покупатели, которые пьют без­алкогольные напитки мало, умеренно и много?

  • Какие психографические характеристики помогают провести различия между воспри­имчивыми и не восприимчивыми к цене покупателями бакалейных товаров?

  • Различаются ли между собой различные сегменты рынка по своим предпочтениям к средствам массовой информации?

  • Какие существуют различия между постоянными покупателями местных универсаль­ных магазинов и постоянными покупателями общенациональных сетей универмагов с точки зрения стиля жизни?

  • Какими отличительными характеристиками обладают потребители, реагирующие на прямую почтовую рекламу?

К статистикам, используемым в дискриминантном анализе, относятся:

Каноническая корреляция. Измеряет степень связи между дискрими-нантными показателями и группами. Это мера связи между единственной дискриминирую­щей функцией и набором фиктивных переменных, которые определяют принадлежность к данной группе.

Центроид (средняя точка). Центроид – это средние значения для дискриминантных показателей конкретной группы. Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Средние группы для всех функцийэто групповые центроиды.

Классификационная матрица. Иногда ее называют смешанной матрицей, или матрицей предсказания. Классификационная матрица содержит ряд правильно классифи­цированных и ошибочно классифицированных случаев. Верно классифицированные случаи лежат на диагонали матрицы, поскольку предсказанные и фактические группы одни и те же. Элементы, не лежащие по диагзнали матрицы, представляют случаи, классифицированные ошибочно. Сумма элементов, лежащих на диагонали, деленная на общее количество случаев, дает коэффициент результативности.

Коэффициенты дискриминантной функции. Коэффициен­ты дискриминантной функции (ненормированные) – это коэффициенты переменных, когда они измерены в первоначальных единицах.

Дискриминантные показатели. Сумма произведений ненормированных коэффициентов дискриминантной функции на значения переменных, добавленная к посто­янному члену.

Собственное (характеристическое) значение. Для каждой дискриминантной функции собственное значение – это отношение межгрупповой суммы квадратов к внутри-групповой сумме квадратов. Большие собственные значения указывают на функции более вы­сокого порядка.

F – статистика и ее значимость. Значения F -статистики вычис­ляют однофакторный дисперсионный анализ, разбивая на группы независимую переменную. Каждый предиктор, в свою очередь, служит в ANOVA метрической зависимой переменной.

Средние группы и групповые стандартные отклонения. Эти показатели вычисляют для каждого предиктора каждой группы.

Объединенная межгрупповая корреляционная матрица. Объединенную межгрупповую корреляционную матрицу вычисляют усреднением отдельных ковариационных матриц для всех групп.

Нормированные коэффициенты дискриминантных функций. Коэффициенты дискриминантных функций используют как множители для нор­мированных переменных, т.е. переменных с нулевым средним и дисперсией, равной 1.

Структурные коэффициенты корреляции. Также известны как дискри-минантные нагрузки, представляют собой линейные коэффициенты корреляции между предик­торами и дискриминантной функцией.

Общая корреляционная матрица. Если при вычислении корреляций наблюдения обрабатывают так, как будто они взяты из одной выборки, то в результате получа­ют общую корреляционную матрицу.

Коэффициент λ Уилкса. Иногда называемый U-статистикой, коэффициент λ Уилкса для каждого предиктора – это отношение внутри групповой суммы квадратов к общей сумме квадратов. Его значение варьирует от 0 до 1. Большое значение λ (около 1) указывает на то, что средние групп не должны различаться. Малые значения λ (около 0) указывают на то, что средние групп различаются.

Процедура выполнения дискриминантного анализа состоит из следующих этапов (рис. 5.7).

1. Определение зависимой и независимой переменной (переменных).

Первый шаг дискриминантного анализа – определе­ние зависимой переменой и независимых переменных. Зависимая переменная долж­на состоять из двух или больше взаимоисключающих и взаимно исчерпывающих категорий. Если зависимая переменная измерена с помощью интервальной или относительной шкалы, то ее следует, в первую очередь, перевести в статусу категориальной. Например, отношение к торговой марке, измеренное по семибалльной шкале, можно категоризировать как неблаго­приятное (1, 2, 3), нейтральное (4) и благоприятное (5, 6, 7). Можно поступить иначе. Для этого следует построить график распределения значений зависимой переменной и сформи­ровать группы равного размера с помощью точек отсечения. Предикторы следует выбирать, исходя из теоретической модели или ранее проверенного исследования, или, в случае поис­кового исследования, из интуиции и опыта исследователя.

Далее выборку делят на две части. Одна из них – анализируемая выбор­ка – используется для вычисления дискриминантной функции. Другая часть – проверочная выборка – предназначена для проверки дис­криминантной функции. Когда выборка достаточно большая, ее можно разбить на две равные части. Одна служит анализируемой выборкой, а другую используют для проверки. Затем роль этих половинок взаимно меняют и повторяют анализ. Это называется двойной перекрестной проверкой.

Рисунок 5.7. Процедура дискриминантного анализа.

Часто распределение количества случаев в анализируемой и проверочной выборки явствует из распределения в общей выборке. Например, если общая выборка содержит 50% лояльно и 50% нело­яльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая содер­жать 50% лояльных и 50% нелояльны;: покупателей. В другом случае, если выборка содержит 25% лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).

Для выбора предикторов в дискриминантной функции можно использовать два метода. Прямой метод – это вычисление дискриминантной функции при одновременном введении всех предикторов. В этом случае учитывается каждая зависимая переменная. При этом ее дискриминирую­щая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда анали­тик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы в основе различения лежали все предикторы.

Альтернативным методом является пошаговый метод. При пошаговом дискриминантном анализе предикторы вво­дят последовательно, исходя из их способности различить (дискриминировать) группы. Этот метод лучше применять в ситуации, когда исследователь хочет отобрать подмножество предикторов для включения их в дискриминатную функцию.

2

Продолжение примера.

Неравенство средних значений заявленных дискриминационных переменных (пол, возраст, уровень дохода) в группах потребителей, предпочитающих отечественные и зарубежные сорта пива можно считать отличительными признаками только в том случае, если будет доказана статистическая значимость их средних значений в исследуемых группах. Для этого проводится тест на равенство средних значений в группах (таблица Б).

Таблица Б. Тест на равенство средних значений в группах

Коэффициент Лямбда (λ) Уилкса

F-статистика

Число степеней свободы 1 (df1)

Число степеней свободы 2 (df2)

Уровень статистической значимости

пол

,996

,966

1

230

,327

возраст

,891

28,026

1

230

,000

уровень доходов

1,000

,027

1

230

,869

Основной результат теста определяется с помощью уровня статистической значимости. Если его значение меньше 0,05, это означает, что различия между средними значениями дискриминационных переменных в исследуемых группах являются статистически значимыми. В данном примере уровень статистической значимости не превышает 0,05 для одной заявленной дискриминационной переменной – «возраст». Это означает, что потребители, предпочитающие отечественные и зарубежные сорта пива отличаются по возрасту.

. Выбор метода дискриминантного анализа. Метод дискриминантного анализа описывается числом категорий, имеющихся у зависи­мой переменной. Если она имеет две категории, то выбирают метод дискриминантного анализа для двух групп. Если анализируют три или больше категорий, то выбирают метод множественного дискри­минантного анализа. Главное отличие между ними заключается в том, что при наличии двух групп возможно вывести только одну дискриминантную функцию. Используя множественный дискрими­нантный анализ, можно вычислить несколько функций.

Пример.

Требуется построить дискриминантную модель, при помощи которой на основании социально-демографических признаков (пол, возраст и уровень дохода) можно было бы причислить потребителя к одной из двух групп: предпочитающих пиво отечественного производства и предпочитающих пиво зарубежного производства.

В рассматриваемом примере дискриминантного анализа в ка­честве группирующей переменной используется переменная «предпочитаемые производители пива». Эта пе­ременная имеет два значения: «1» — «отечественные» и «2» — «зарубежные», которые разделяют опрашиваемых потребителей на две группы: предпочитающих пиво отечественного производства и предпочитающих пиво зарубежного производства. Ответы респондентов, которые затруд­нились или не захотели отвечать на этот вопрос не участвуют в исследовании.

В качестве дискриминационных переменных в рассматрива­емом примере используются социально-демографические при­знаки потребителей: пол, возраст и уровень дохода.

Переменная «пол» является дихотомической. Расчет такого показателя, как «средний пол», является абсурдным. Однако дихотомические переменные могут рассматриваться как метрические.

Переменные «возраст» и «уровень доходов» являются порядковыми переменными, т.е. они разделяют потребителей на категории по возрасту и уровню доходов. Значения меток данных переменных относятся, соответственно, к девяти и к десяти категориям. Средние значения этих переменных представляют средние значения порядковых номеров категорий, указанных респондентами.

Для того чтобы построить дискриминантную модель, следует сначала выяснить, все ли выбранные дискриминационные переменные в действительности служат отличительными признаками исследуемых групп. Только после этого можно построить дискриминационную модель.

С помощью программного пакета SPSS можно получить таблицу «Статистические показатели в группах», которая содержит данные о средних значениях дискриминационных переменных в каждой из исследуемых групп. Эти показатели дают общее представление о том, являются ли дискриминационные переменные отличительными признаками исследуемых групп.

Из данных, представленных в таблице А видно, что средний возраст потребителей, предпочитающих зарубежные марки пива попадает в третью категорию, что соответствует возрасту 28-32 года, а средний возраст потребителей, предпочитающих отечественные марки пива попадает в четвертую возрастную категорию – 33-37 лет. По полу и уровню доходов все респонденты попадают в одну категорию. Таким образом, переменные «пол» и «уровень дохода» являются слабыми отличительными признаками исследуемых групп в отличие от переменной «возраст».

Таблица А. Статистические показатели в группах.

Предпочитаемые производители пива

Среднее

Стандартное отклонение

Число ответов

Зарубежные

пол

1,37

,49

126

возраст

3,31

1,41

126

уровень доходов

3,29

0,87

126

Отечественные

пол

1,31

,47

106

возраст

4,30

1,44

106

уровень доходов

3,31

0,74

106

Всего

пол

1,34

,48

232

возраст

3,76

1,50

232

уровень доходов

3,30

0,81

232

3. Определение коэффициентов дискриминантной функции.

Рассмотрим случай для двух дискриминантных переменных. Функция f(X) называется канонической дискриминантной функцией, а величины x1 и x2 – дискриминантными переменными

f(x) = а]Х1 + а2Х2.

Дискриминантная функция может быть как линейной, так и нелинейной. Выбор вида этой функции зависит от геометрического расположения разделяе­мых классов в пространстве дискриминантных переменных.

Коэффициенты дискриминантной функции (аi) определяются таким обра­зом, чтобы (X) и (Х) как можно больше отличались между собой.

Вектор коэффициентов дискриминантной функции (А) определяется по формуле

Полученные значения коэффициентов подставляют в формулу и для каждого объекта в обоих множествах вычисляют дискриминантные функции f(X), затем находят среднее значение для каждой группы ( ). Таким образом, каждому i-му наблюдению, которое первоначально описывалось m-переменными, будет соответствовать одно значение дискриминантной функции, и размерность признакового пространства снижается.

Перед тем как приступить непосредственно к процедуре классификации, нужно определить границу, разделяющую два множества. Такой величиной может быть значение функции, равноудаленное от и ,т.е.

Величина с называется константой дискриминации.

О

Продолжение примера.

Как видно по данным таблицы В, в рассматриваемом примере в деление совокупности на две группы самый большой вклад внесла переменная «возраст» (1,0). Кроме того, оказалось, что переменные «пол» (0,54) и «доход» (0,183) не оказывают практически никакого влияния на выбор покупателя между зарубежным и отечественным пивом.

Таблица В. Структурная матрица

Функция

1

возраст

1,000

уровень доходов

0,183

пол

0,054

В таблице С представлены нестандартизированные (канонические) коэффициенты дискриминантной функции, именно они используются для построения дискриминантной модели.

Таблица С. Канонические коэффициенты дискриминантной функции

Function

1

возраст

,703

(Constant)

-2,646

В соответствии с данными, представленными в таблице С, дискриминантная модель, построенная в результате проведения дискриминантного анализа, имеет следующий вид:

У= 0,703*Х - 2,646,

где У – предпочтение покупателей при выборе между зарубежными или отечественными марками пива;

Х – возраст покупателей.

бъекты, расположенные над разделяющей поверхностью f(x) = a1x1 + а2х2+…+ архрнаходятся ближе к центру множества М1, следовательно, могут быть отнесены к первой группе, а объекты, расположенные ниже этой поверхности, ближе к центру второго множества, т.е. относятся ко второй группе. Если граница между группами будет выбрана как сказано выше, то в этом случае суммарная вероятность ошибочной классификации будет минимальной.

4. Определение значимости дискриминантной функции.

Бессмысленно интерпретировать результаты анализа, если определенные дискриминантные функции не являются статистически значимыми. Поэтому следует выполнить статистическую проверку нулевой гипотезы о равенстве средних всех дискриминантных функций во всех группах генеральной совокупности. В программе SPSS эта проверка ба­зируется на коэффициенте лямбда (λ) Уилкса. Если одновременно проверяют несколько функций, как в случае множественного дискриминантного анализа, то коэффициент λ является суммой одномерных λ для каждой функции. Уровень значимости оценивают, исходя из преобразования λ -статистики в статистику хи-квадрат (исходя из распределе­ния хи-квадрат, которому подчиняется λ -статистика). Если нулевую гипотезу отклоняют, что указывает на значимую дискриминацию, то можно продолжать интерпре­тировать результаты.

5. Интерпретация полученных результатов.

Интерпретация дискриминантных весов аналогична интерпретации во множественном регрессионном анализе. Значение коэффициента для конкретного предиктора зависит от дру­гих предикторов, включенных в дискриминантную функцию. Знаки коэффициентов условны, но они указывают, какие значения переменной приводят к большим и маленьким значениям функции и связывают их с конкретными группами.

При наличии мультиколлинеарности между независимыми переменными не существует однозначной меры относительной важности предикторов для дискриминации между группа­ми. Помня об этом предостережении, можно получить некоторое представление об относи­тельной важности переменных, изучив абсолютные значения нормированных коэффициентов дискриминантной функции. Как правило, предикторы с относительно большими нормиро­ванными коэффициентами вносят больший вклад в дискриминирующую мощность функции по сравнению с предикторами, имеющими меньшие коэффициенты.

Некоторое представление об относительной важности предикторов можно также получить, изучив структурные коэффициенты корреляции, которые также называют каноническими или дискриминантными нагрузками. Эти линейные коэффициенты корреляции между каждым из предикторов и дискриминантной функцией представляют дисперсию, которую предиктор де­лит вместе с функцией. Как и нормированные коэффициенты, эти коэффициенты корреля­ции следует использовать осторожно.

При интерпретации результатов дискриминантного анализа также может помочь разработ­ка характеристической структуры для каждой группы посредством описа­ния каждой группы через групповые средние для предикторов.

6. Оценка достоверности дискриминантного анализа.

Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализи­руемую часть выборки используют для вычисления дискриминантной функции, а провероч­ную – для построения классификационной матрицы. Дискриминантные веса, определенные анализируемой выборкой, умножают на значения независимых переменных в проверочной выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем слу­чаи распределяют по группам, исходя из дискриминантных показателей и соответствующего правила принятия решения. Например, при дискриминантном анализе двух групп случай мо­жет быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элемен­ты, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случа­ев, можно определить коэффициент результативности или процент верно классифи­цированных случаев. Полезно сравнить процент случаев, верно классифицированных с помощью дискрими­нантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления еди­ницы на количество групп. Превысит ли и насколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые авторы считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случай­ным образом.

Б

Продолжение примера.

В табл. показаны результаты классифика­ции, полученные на основе анализируемой выборки. Коэффициент результативности или процент верно классифицированных случаев равен 62%. Превышение точности классифи­кации над случайной классификацией составляет менее 25%, и поэтому достоверность дис­криминантного анализа оценивают как неудовлетворительную.

Таблица. Результаты классификации

Предсказанные значения

Всего

Предпочитаемые производители пива

зарубежные

отечественные

Число

зарубежные

67

59

126

отечественные

29

77

106

Негруппированые случаи

45

35

80

%

зарубежные

53,2

46,8

100,0

отечественные

27,4

72,6

100,0

Негруппированые случаи

56,3

43,8

100,0

ольшинство программ для выполнения дискриминантного анализа также определяют классификационную матрицу, исходя из анализируемой выборки. Поскольку программы учи­тывают даже случайные вариации в данных, то полученные результаты всегда точнее, чем клас­сификация данных на основе проверочной выборки.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]