Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Белорусский государственный экономический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

598070_078D2_zorina_t_g_slonimskaya_m_a_marketi...doc

Скачиваний:

292

Добавлен:

24.09.2019

Размер:

3.85 Mб

Скачать

☆

<<< < Предыдущая 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2526 / 3426 27 28 29 30 31 32 33 34 > Следующая >>>

5.2.4. Дискриминантный анализ

Дискриминантный анализ – анализ различий заранее заданных групп объектов исследования (потребителей, товаров, брендов и т.п.). Переменная, разделяющая совокупность объектов исследования на группы, называется группирующей.

С помощью дискриминантного анализа изучаются различия между двумя или более группами по определенным признакам. Признаки, используемые для выявления различий между группами, называются дискриминационными переменными. Группирующая переменная должна быть номинальной, т.е. измеряться по номинальной шкале, а зависимые переменные – метрическими. Соблюдение этого условия обеспечивает высокую точность статистических расчетов. Однако на практике допускается, что группирующая переменная может быть номинальной или порядковой, а дискриминационные переменные могут измеряться по шкале любого типа.

Результатом дискриминантного анализа является построение дискриминантной модели (дискриминантной функции), которая имеет вид

D = b_o + b_iX₁ + b₂X₂ + … + b_kX_k,

где D – группирующая (зависимая) переменная;

b_k – коэффициенты дискриминантной функции;

b_o – свободный член (константа);

х_п – дискриминационные (независимые) переменные.

С помощью этой модели, зная характеристики объекта исследования, можно с определенной степенью уверенности определить его принадлежность к одной из исследованных групп.

Дискриминантный анализ преследует следующие цели.

1. Определение дискриминантных функций или линейных комбинаций независимых переменных, которые наилучшим образом различают (дискриминируют) категории (группы) зависимой переменной.

2. Проверка существования между группами значимых различий с точки зрения независимых переменных.

3. Определение предикторов, вносящих наибольший вклад в межгрупповые различия.

4. Отнесение случаев к одной из групп (классификация), исходя из значений предикторов.

5. Оценка точности классификации данных на группы.

Дискриминантный анализ целесообразно применять в случаях, когда необходимо выяснить ответы на следующие вопросы:

Чем, с точки зрения демографических характеристик, отличаются приверженцы данного магазина от тех, у кого эта приверженность отсутствует?
Отличаются ли в потреблении замороженных продуктов покупатели, которые пьют безалкогольные напитки мало, умеренно и много?
Какие психографические характеристики помогают провести различия между восприимчивыми и не восприимчивыми к цене покупателями бакалейных товаров?
Различаются ли между собой различные сегменты рынка по своим предпочтениям к средствам массовой информации?
Какие существуют различия между постоянными покупателями местных универсальных магазинов и постоянными покупателями общенациональных сетей универмагов с точки зрения стиля жизни?
Какими отличительными характеристиками обладают потребители, реагирующие на прямую почтовую рекламу?

К статистикам, используемым в дискриминантном анализе, относятся:

Каноническая корреляция. Измеряет степень связи между дискрими-нантными показателями и группами. Это мера связи между единственной дискриминирующей функцией и набором фиктивных переменных, которые определяют принадлежность к данной группе.

Центроид (средняя точка). Центроид – это средние значения для дискриминантных показателей конкретной группы. Центроидов столько, сколько групп, т.е. один центроид для каждой группы. Средние группы для всех функций – это групповые центроиды.

Классификационная матрица. Иногда ее называют смешанной матрицей, или матрицей предсказания. Классификационная матрица содержит ряд правильно классифицированных и ошибочно классифицированных случаев. Верно классифицированные случаи лежат на диагонали матрицы, поскольку предсказанные и фактические группы одни и те же. Элементы, не лежащие по диагзнали матрицы, представляют случаи, классифицированные ошибочно. Сумма элементов, лежащих на диагонали, деленная на общее количество случаев, дает коэффициент результативности.

Коэффициенты дискриминантной функции. Коэффициенты дискриминантной функции (ненормированные) – это коэффициенты переменных, когда они измерены в первоначальных единицах.

Дискриминантные показатели. Сумма произведений ненормированных коэффициентов дискриминантной функции на значения переменных, добавленная к постоянному члену.

Собственное (характеристическое) значение. Для каждой дискриминантной функции собственное значение – это отношение межгрупповой суммы квадратов к внутри-групповой сумме квадратов. Большие собственные значения указывают на функции более высокого порядка.

F – статистика и ее значимость. Значения F -статистики вычисляют однофакторный дисперсионный анализ, разбивая на группы независимую переменную. Каждый предиктор, в свою очередь, служит в ANOVA метрической зависимой переменной.

Средние группы и групповые стандартные отклонения. Эти показатели вычисляют для каждого предиктора каждой группы.

Объединенная межгрупповая корреляционная матрица. Объединенную межгрупповую корреляционную матрицу вычисляют усреднением отдельных ковариационных матриц для всех групп.

Нормированные коэффициенты дискриминантных функций. Коэффициенты дискриминантных функций используют как множители для нормированных переменных, т.е. переменных с нулевым средним и дисперсией, равной 1.

Структурные коэффициенты корреляции. Также известны как дискри-минантные нагрузки, представляют собой линейные коэффициенты корреляции между предикторами и дискриминантной функцией.

Общая корреляционная матрица. Если при вычислении корреляций наблюдения обрабатывают так, как будто они взяты из одной выборки, то в результате получают общую корреляционную матрицу.

Коэффициент λ Уилкса. Иногда называемый U-статистикой, коэффициент λ Уилкса для каждого предиктора – это отношение внутри групповой суммы квадратов к общей сумме квадратов. Его значение варьирует от 0 до 1. Большое значение λ (около 1) указывает на то, что средние групп не должны различаться. Малые значения λ (около 0) указывают на то, что средние групп различаются.

Процедура выполнения дискриминантного анализа состоит из следующих этапов (рис. 5.7).

1. Определение зависимой и независимой переменной (переменных).

Первый шаг дискриминантного анализа – определение зависимой переменой и независимых переменных. Зависимая переменная должна состоять из двух или больше взаимоисключающих и взаимно исчерпывающих категорий. Если зависимая переменная измерена с помощью интервальной или относительной шкалы, то ее следует, в первую очередь, перевести в статусу категориальной. Например, отношение к торговой марке, измеренное по семибалльной шкале, можно категоризировать как неблагоприятное (1, 2, 3), нейтральное (4) и благоприятное (5, 6, 7). Можно поступить иначе. Для этого следует построить график распределения значений зависимой переменной и сформировать группы равного размера с помощью точек отсечения. Предикторы следует выбирать, исходя из теоретической модели или ранее проверенного исследования, или, в случае поискового исследования, из интуиции и опыта исследователя.

Далее выборку делят на две части. Одна из них – анализируемая выборка – используется для вычисления дискриминантной функции. Другая часть – проверочная выборка – предназначена для проверки дискриминантной функции. Когда выборка достаточно большая, ее можно разбить на две равные части. Одна служит анализируемой выборкой, а другую используют для проверки. Затем роль этих половинок взаимно меняют и повторяют анализ. Это называется двойной перекрестной проверкой.

Рисунок 5.7. Процедура дискриминантного анализа.

Часто распределение количества случаев в анализируемой и проверочной выборки явствует из распределения в общей выборке. Например, если общая выборка содержит 50% лояльно и 50% нелояльно настроенных покупателей, то анализируемая и проверочная выборки должны каждая содержать 50% лояльных и 50% нелояльны;: покупателей. В другом случае, если выборка содержит 25% лояльных и 75% нелояльных покупателей, следует выбрать анализируемую и проверочную выборки таким образом, чтобы их распределения отражали аналогичную картину (25% против 75%).

Для выбора предикторов в дискриминантной функции можно использовать два метода. Прямой метод – это вычисление дискриминантной функции при одновременном введении всех предикторов. В этом случае учитывается каждая зависимая переменная. При этом ее дискриминирующая сила не принимается во внимание. Этот метод больше подходит к ситуации, когда аналитик, исходя из результатов предыдущего исследования или теоретической модели, хочет, чтобы в основе различения лежали все предикторы.

Альтернативным методом является пошаговый метод. При пошаговом дискриминантном анализе предикторы вводят последовательно, исходя из их способности различить (дискриминировать) группы. Этот метод лучше применять в ситуации, когда исследователь хочет отобрать подмножество предикторов для включения их в дискриминатную функцию.

Продолжение примера.

Неравенство средних значений заявленных дискриминационных переменных (пол, возраст, уровень дохода) в группах потребителей, предпочитающих отечественные и зарубежные сорта пива можно считать отличительными признаками только в том случае, если будет доказана статистическая значимость их средних значений в исследуемых группах. Для этого проводится тест на равенство средних значений в группах (таблица Б).

Таблица Б. Тест на равенство средних значений в группах

	Коэффициент Лямбда (λ) Уилкса	F-статистика	Число степеней свободы 1 (df1)	Число степеней свободы 2 (df2)	Уровень статистической значимости
пол	,996	,966	1	230	,327
возраст	,891	28,026	1	230	,000
уровень доходов	1,000	,027	1	230	,869

Основной результат теста определяется с помощью уровня статистической значимости. Если его значение меньше 0,05, это означает, что различия между средними значениями дискриминационных переменных в исследуемых группах являются статистически значимыми. В данном примере уровень статистической значимости не превышает 0,05 для одной заявленной дискриминационной переменной – «возраст». Это означает, что потребители, предпочитающие отечественные и зарубежные сорта пива отличаются по возрасту.

. Выбор метода дискриминантного анализа. Метод дискриминантного анализа описывается числом категорий, имеющихся у зависимой переменной. Если она имеет две категории, то выбирают метод дискриминантного анализа для двух групп. Если анализируют три или больше категорий, то выбирают метод множественного дискриминантного анализа. Главное отличие между ними заключается в том, что при наличии двух групп возможно вывести только одну дискриминантную функцию. Используя множественный дискриминантный анализ, можно вычислить несколько функций.

Пример.

Требуется построить дискриминантную модель, при помощи которой на основании социально-демографических признаков (пол, возраст и уровень дохода) можно было бы причислить потребителя к одной из двух групп: предпочитающих пиво отечественного производства и предпочитающих пиво зарубежного производства.

В рассматриваемом примере дискриминантного анализа в качестве группирующей переменной используется переменная «предпочитаемые производители пива». Эта переменная имеет два значения: «1» — «отечественные» и «2» — «зарубежные», которые разделяют опрашиваемых потребителей на две группы: предпочитающих пиво отечественного производства и предпочитающих пиво зарубежного производства. Ответы респондентов, которые затруднились или не захотели отвечать на этот вопрос не участвуют в исследовании.

В качестве дискриминационных переменных в рассматриваемом примере используются социально-демографические признаки потребителей: пол, возраст и уровень дохода.

Переменная «пол» является дихотомической. Расчет такого показателя, как «средний пол», является абсурдным. Однако дихотомические переменные могут рассматриваться как метрические.

Переменные «возраст» и «уровень доходов» являются порядковыми переменными, т.е. они разделяют потребителей на категории по возрасту и уровню доходов. Значения меток данных переменных относятся, соответственно, к девяти и к десяти категориям. Средние значения этих переменных представляют средние значения порядковых номеров категорий, указанных респондентами.

Для того чтобы построить дискриминантную модель, следует сначала выяснить, все ли выбранные дискриминационные переменные в действительности служат отличительными признаками исследуемых групп. Только после этого можно построить дискриминационную модель.

С помощью программного пакета SPSS можно получить таблицу «Статистические показатели в группах», которая содержит данные о средних значениях дискриминационных переменных в каждой из исследуемых групп. Эти показатели дают общее представление о том, являются ли дискриминационные переменные отличительными признаками исследуемых групп.

Из данных, представленных в таблице А видно, что средний возраст потребителей, предпочитающих зарубежные марки пива попадает в третью категорию, что соответствует возрасту 28-32 года, а средний возраст потребителей, предпочитающих отечественные марки пива попадает в четвертую возрастную категорию – 33-37 лет. По полу и уровню доходов все респонденты попадают в одну категорию. Таким образом, переменные «пол» и «уровень дохода» являются слабыми отличительными признаками исследуемых групп в отличие от переменной «возраст».

Таблица А. Статистические показатели в группах.

Предпочитаемые производители пива		Среднее	Стандартное отклонение	Число ответов
Зарубежные	пол	1,37	,49	126
	возраст	3,31	1,41	126
	уровень доходов	3,29	0,87	126
Отечественные	пол	1,31	,47	106
	возраст	4,30	1,44	106
	уровень доходов	3,31	0,74	106
Всего	пол	1,34	,48	232
	возраст	3,76	1,50	232
	уровень доходов	3,30	0,81	232

3. Определение коэффициентов дискриминантной функции.

Рассмотрим случай для двух дискриминантных переменных. Функция f(X) называется канонической дискриминантной функцией, а величины x₁ и x₂ – дискриминантными переменными

f(x) = а_]Х₁ + а₂Х₂.

Дискриминантная функция может быть как линейной, так и нелинейной. Выбор вида этой функции зависит от геометрического расположения разделяемых классов в пространстве дискриминантных переменных.

Коэффициенты дискриминантной функции (а_i) определяются таким образом, чтобы (X) и (Х) как можно больше отличались между собой.

Вектор коэффициентов дискриминантной функции (А) определяется по формуле

Полученные значения коэффициентов подставляют в формулу и для каждого объекта в обоих множествах вычисляют дискриминантные функции f(X), затем находят среднее значение для каждой группы ( ). Таким образом, каждому i-му наблюдению, которое первоначально описывалось m-переменными, будет соответствовать одно значение дискриминантной функции, и размерность признакового пространства снижается.

Перед тем как приступить непосредственно к процедуре классификации, нужно определить границу, разделяющую два множества. Такой величиной может быть значение функции, равноудаленное от и ,т.е.

Величина с называется константой дискриминации.

Продолжение примера.

Как видно по данным таблицы В, в рассматриваемом примере в деление совокупности на две группы самый большой вклад внесла переменная «возраст» (1,0). Кроме того, оказалось, что переменные «пол» (0,54) и «доход» (0,183) не оказывают практически никакого влияния на выбор покупателя между зарубежным и отечественным пивом.

Таблица В. Структурная матрица

	Функция
	1
возраст	1,000
уровень доходов	0,183
пол	0,054

В таблице С представлены нестандартизированные (канонические) коэффициенты дискриминантной функции, именно они используются для построения дискриминантной модели.

Таблица С. Канонические коэффициенты дискриминантной функции

	Function
	1
возраст	,703
(Constant)	-2,646

В соответствии с данными, представленными в таблице С, дискриминантная модель, построенная в результате проведения дискриминантного анализа, имеет следующий вид:

У= 0,703*Х - 2,646,

где У – предпочтение покупателей при выборе между зарубежными или отечественными марками пива;

Х – возраст покупателей.

бъекты, расположенные над разделяющей поверхностью f(x) = a₁x₁ + а₂х₂+…+ а_рх_р=с находятся ближе к центру множества М₁, следовательно, могут быть отнесены к первой группе, а объекты, расположенные ниже этой поверхности, ближе к центру второго множества, т.е. относятся ко второй группе. Если граница между группами будет выбрана как сказано выше, то в этом случае суммарная вероятность ошибочной классификации будет минимальной.

4. Определение значимости дискриминантной функции.

Бессмысленно интерпретировать результаты анализа, если определенные дискриминантные функции не являются статистически значимыми. Поэтому следует выполнить статистическую проверку нулевой гипотезы о равенстве средних всех дискриминантных функций во всех группах генеральной совокупности. В программе SPSS эта проверка базируется на коэффициенте лямбда (λ) Уилкса. Если одновременно проверяют несколько функций, как в случае множественного дискриминантного анализа, то коэффициент λ является суммой одномерных λ для каждой функции. Уровень значимости оценивают, исходя из преобразования λ -статистики в статистику хи-квадрат (исходя из распределения хи-квадрат, которому подчиняется λ -статистика). Если нулевую гипотезу отклоняют, что указывает на значимую дискриминацию, то можно продолжать интерпретировать результаты.

5. Интерпретация полученных результатов.

Интерпретация дискриминантных весов аналогична интерпретации во множественном регрессионном анализе. Значение коэффициента для конкретного предиктора зависит от других предикторов, включенных в дискриминантную функцию. Знаки коэффициентов условны, но они указывают, какие значения переменной приводят к большим и маленьким значениям функции и связывают их с конкретными группами.

При наличии мультиколлинеарности между независимыми переменными не существует однозначной меры относительной важности предикторов для дискриминации между группами. Помня об этом предостережении, можно получить некоторое представление об относительной важности переменных, изучив абсолютные значения нормированных коэффициентов дискриминантной функции. Как правило, предикторы с относительно большими нормированными коэффициентами вносят больший вклад в дискриминирующую мощность функции по сравнению с предикторами, имеющими меньшие коэффициенты.

Некоторое представление об относительной важности предикторов можно также получить, изучив структурные коэффициенты корреляции, которые также называют каноническими или дискриминантными нагрузками. Эти линейные коэффициенты корреляции между каждым из предикторов и дискриминантной функцией представляют дисперсию, которую предиктор делит вместе с функцией. Как и нормированные коэффициенты, эти коэффициенты корреляции следует использовать осторожно.

При интерпретации результатов дискриминантного анализа также может помочь разработка характеристической структуры для каждой группы посредством описания каждой группы через групповые средние для предикторов.

6. Оценка достоверности дискриминантного анализа.

Как уже говорилось, данные разбивают случайным образом на две подвыборки. Анализируемую часть выборки используют для вычисления дискриминантной функции, а проверочную – для построения классификационной матрицы. Дискриминантные веса, определенные анализируемой выборкой, умножают на значения независимых переменных в проверочной выборке, чтобы получить дискриминантные показатели для случаев в этой выборке. Затем случаи распределяют по группам, исходя из дискриминантных показателей и соответствующего правила принятия решения. Например, при дискриминантном анализе двух групп случай может быть отнесен к группе с самым близким по значению центроидом. Затем, сложив элементы, лежащие на диагонали матрицы, и разделив полученную сумму на общее количество случаев, можно определить коэффициент результативности или процент верно классифицированных случаев. Полезно сравнить процент случаев, верно классифицированных с помощью дискриминантного анализа, с процентом случаев, который можно получить случайным образом. Для равных по размеру групп процент случайной классификации равен частному от деления единицы на количество групп. Превысит ли и насколько количество верно классифицированных случаев их случайное количество? Здесь нет общепринятого подхода, хотя некоторые авторы считают, что точность классификации, достигнутая с помощью дискриминантного анализа, должна быть, по крайней мере, на 25% выше, чем точность, которую можно достичь случайным образом.

Продолжение примера.

В табл. показаны результаты классификации, полученные на основе анализируемой выборки. Коэффициент результативности или процент верно классифицированных случаев равен 62%. Превышение точности классификации над случайной классификацией составляет менее 25%, и поэтому достоверность дискриминантного анализа оценивают как неудовлетворительную.

Таблица. Результаты классификации

		Предсказанные значения		Всего
	Предпочитаемые производители пива	зарубежные	отечественные
Число	зарубежные	67	59	126
	отечественные	29	77	106
	Негруппированые случаи	45	35	80
%	зарубежные	53,2	46,8	100,0
	отечественные	27,4	72,6	100,0
	Негруппированые случаи	56,3	43,8	100,0

ольшинство программ для выполнения дискриминантного анализа также определяют классификационную матрицу, исходя из анализируемой выборки. Поскольку программы учитывают даже случайные вариации в данных, то полученные результаты всегда точнее, чем классификация данных на основе проверочной выборки.

<<< < Предыдущая 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 2526 / 3426 27 28 29 30 31 32 33 34 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.09.2019175.78 Кб252-63.docx
#
21.04.201942.96 Кб754 Всемирной торговой организации.docx
#
16.09.201949.11 Кб25555555555555.docx
#
19.09.2019264 Кб10562189_1E882_bimatrichnye_igry.docx
#
23.11.2019310.73 Кб13571868.rtf
#
24.09.20193.85 Mб292598070_078D2_zorina_t_g_slonimskaya_m_a_marketi...doc
#
24.08.2019486.91 Кб285_1 Excel.doc
#
24.08.2019354.82 Кб85_2 Excel.doc
#
12.11.2019349.7 Кб46. Логистика. Уч. пособие.doc
#
20.02.2016347.65 Кб176. ПСЗ ЭТ Модуль 1 к. ДАБ 14-15.doc
#
27.10.2018183.3 Кб361,63,64.doc