Скачиваний:
46
Добавлен:
01.05.2014
Размер:
52.22 Кб
Скачать

OVERVIEW

Общие сведения.

Дискриминантный анализ используется для определения переменных на основе которых различаются две или более конечных групп. Например, для исследования, по каким параметрам различаются выпускники средней школы, которые могут :

(1) - поступить в институт,

(2) - поступить в торговую или профессиональную школу,

(3) - не продолжить дальнейшее обучение.

Для этой цели исследователь собирает данные относительно многочисленных переменных до окончания выпускниками школы. После окончания большинство участников попадет в одну из трех категорий. Дискриминантный анализ используется, чтобы определить, какая переменная (-ые) лучше всего предсказывает выбор выпускников.

Вычислительный подход.

Вычислительно дискриминантный анализ подобен дисперсионному анализу (ANOVA). Рассмотрим простой пример. Предположим, что мы измеряем рост в произвольной выборке из 50 мужчин и 50 женщин. Женщины, в среднем, не такие высокие как мужчины, и это различие будет отражено в переменной РОСТ. Следовательно, переменная РОСТ позволяет нам находить разницу между мужчинами и женщинами с лучшей достоверностью, чем случайная вероятность: если человек высокий, то он скорее всего будет мужчиной, а если низкий, то женщиной.

Это рассуждение верно и для менее "тривиальных" групп и переменных. Например, пусть у нас есть две группы выпускников школы: те, которые собираются поступить в институт после окончания школы, и те, которые не хотят не продолжить учебу. Выясним желание учеников продолжить учебу за год до окончания школы. Если значения переменных для двух групп (тех, кто фактически поступил в институт и тех, кто не поступил) различны, то мы не можем говорить, что желание посещать институт, установленное за год до окончания позволяет нам различать учеников, собирающихся поступить в институт и не собирающихся.

Таким образом, идея, лежащая в основе дискриминантного анализа состоит в том, чтобы определить, отличаются ли группы по отношению к средней переменной, и затем использовать эту переменную, чтобы определить принадлежность к группе (например, новых выборок).

Дисперсионный анализ. Используя этот способ, задача дискриминантного анализа может быть рассмотрена как задача одностороннего дисперсионного анализа (ANOVA). Тогда можно выяснить, являются ли две или более групп отличными друг от друга относительно средней специфической переменной (см. Вводный раздел краткого обзора к ANOVA/MANOVA). Если значения переменной различаются в разных группах, то мы можем говорить, что эта переменная разделяет группы.

В случае одной переменной, критерий значимости различия между группами - F. F вычисляется как отношение межгрупповой дисперсии данных к средней внутригрупповой дисперсии. Если межгрупповая дисперсия достаточно большая, то существуют значительные различия между значениями переменных.

Многомерные переменные. Рассмотрим несколько переменных, чтобы узнать, какие из них разделяют группы. В этом случае мы имеем матрицу межгрупповой дисперсии и ковариаций и матрицу объединенных внутригрупповых дисперсий и ковариаций. Мы можем сравнить полученные матрицы через multivariate F тесты, чтобы определить, имеются или нет какие-либо различия (по отношению к всем переменным) между группами. Эта процедура идентична многомерному дисперсионному анализу (или MANOVA). Как и в MANOVA, можно сначала выполнить тест multivariate, и, если результат статистически значимый, то посмотреть какие из переменных имеют наиболее различные значения между группами. Таким образом, даже если вычисления с многомерными переменными более сложны, то идея остается та же, а именно, мы ищем переменные, которые вносят различия в математических ожиданиях. Фактически, можно выполнить дискриминантный анализ с модулем ANOVA/MANOVA; однако, различные типы статистик обычно вычисляются и интерпретируются в дискриминантном анализе (как будет описано ниже).

Соседние файлы в папке Дискриминантный анализ