Скачиваний:
46
Добавлен:
01.05.2014
Размер:
52.22 Кб
Скачать

Пошаговый дискриминантный анализ.

Наиболее общая прикладная программа дискриминантного анализа должна включать много мер для изучения, чтобы определить те, которые разделяют группы. Например, исследователь, заинтересованный предсказанием выбора учениками средней школы дальнейшего образования вероятно включил бы столько мер (таких как индивидуальнсть, побуждение достижения, академическая эффективность и т.д.), сколько возможно, для того чтобы выяснить, какие из них отвечают самому лучшему предсказанию.

Модель. Мы хотим сформировать такую "модель", которая будет лучше всего предсказывать, к какой группе принадлежит выборка. В дальнейшем мы будем использовать термин "не в модели" для того, чтобы сослаться на переменные, которые определяют принадлежность к группе, и термин "не в модели", если они не определяют принадлежности.

Прямой пошаговый анализ. При каждом шаге STАTISTICA делает обзор всех переменных и оценивает, какая из них лучше всего разделяет группы. Эта переменная включается в модель, и STАTISTICA переходит к следующему шагу.

Обратный пошаговый анализ. В этом случае STАTISTICA будет сначала включать все переменные в модель, а затем, на каждом шаге, устранять переменную, которая хуже всего определяет принадлежность к группе. Таким образом, результатом успешного завершения дискриминантного анализа является хранение только "важных" переменных в модели, то есть тех переменных, которые способствуют наибольшему различию между группами.

F- включения /F- исключения. Пошаговая процедура "управляется" соответствующими значениями F-включения и F-исключения. Значение F для переменной указывает статистическое значение в разделении групп, то есть F - это мера длины, на которой переменная делает вклад в предсказании принадлежности к группе.

Вообще, STАTISTICA будет продолжать выбирать переменные, включаемые в модель до тех пор, пока соответствующие значения F для этих переменных больше, чем значение F-включения, заданное пользователем; STАTISTICA будет исключать переменные из модели, если их значение - меньше, чем указанное пользователем значения F-исключения.

Интерпретация дискриминантных функций с двумя группами.

В случае с двумя группами, дискриминантный анализ аналогичен многомерному регрессу (см. Multiple Regression). Если мы обозначим две группы в анализе как 1 и 2, и используем переменную как зависимую переменную в многомерном регрессионном анализе, то получим результаты, которые аналогичны полученным через дискриминантный анализ. Вообще, в случае с двумя группами мы решаем линейное уравнение типа:

Group a = ,

где а - константа,

регрессионные коэффициенты.

Интерпретация результатов задачи с двумя группами простая и близка к логике многомерного регресса: переменные с наибольшими регрессионными коэффициентами способствуют более точному предсказанию принадлежности к группе.

Дискриминантные функции для нескольких групп.

При наличии более двух групп мы можем оценивать больше, чем одну дискриминантную функцию. Например, для трех групп мы могли бы оценивать (1) функцию для различия между группой 1 и объединения групп 2 и 3 и (2) другую функцию для различия между группой 2 и группой 3. Коэффициенты b в этих дискриминантных функциях будем интерпретировать как и прежде.

Канонический анализ. При выполнении дискриминантного анализа над несколькими группами не нужно определять, как объединять группы для формирования различных дискриминантных функций. STATISTICA автоматически определит некоторые оптимальные комбинации групп и переменных так, чтобы первая функция обеспечила наиболее лучшее разделение групп, вторая чуть хуже и т.д. Корме того, функции будут независимы (или ортогональны), то есть их вклады в разделение групп не будут накладываться. В вычислительном отношении STATISTICA выполняет канонический анализ корреляции (см. также Каноническую Корреляцию) который определит последовательные функции (также называемые корнями). Максимальное число функций, которое STATISTICA вычисляет, равно числу групп минус один или любому меньшему числу переменных.

Интерпретация дискриминантных функций. Как и прежде, мы будем получать коэффициенты b для каждой переменной каждой дискриминантной (теперь канонической) функции, и интерпретироваться они будут как обычно: чем больше коэффициент, тем больше вклад соответствующей переменной в разделение групп (обратите внимание. что мы можем также интерпретировать коэффициенты структуры см. ниже). Однако, по этим коэффициентам нельзя сказать какие именно группы полученные дискриминантные функции разделяют. Можно выяснить характер дискриминантной (канонической) функции, рассматривая средние значения для этих функций по группам. Можно также наблюдать, как два корня разделяют группы, путем построения индивидуальных значений для двух дискриминантной функций.

Матрица коэффициентов структуры. Другой способ нахождения переменных, определяющих дискриминантную функцию, состоит в рассмотрении факторной структуры. Коэффициенты факторной структуры - это корреляции между переменными в модели и дискриминантных функциях; если Вы знакомы с факторным анализом (см. Факторным анализ) Вы можете думать об этих корреляциях как о факторных нагрузках переменных на каждой дискриминантной функции.

Некоторые авторы считали, что коэффициенты структуры должны интерпретироваться как независимые "значения" дискриминантных функций.

Причины:

(1) коэффициенты структуры более устойчивы,

(2) интерпретация коэффициентов (дискриминантных функций) аналогична факторному анализу. Однако, последующие исследования Монте-Карло (Barcikowski и Stevens, 1975; Huberty, 1975) показали, что коэффициенты дискриминантных функций и коэффициенты структуры являются относительно одинаково непостоянными, если n довольно небольшое (например, количество случаев в 20 раз больше, чем переменных). Необходимо помнить, что коэффициенты дискриминантных функций указывают на уникальный вклад каждой переменной в дискриминантную функцию(-ии), в то время как коэффициенты структуры обозначают простые корреляции между переменными и функцией (-ями). Для присвоения дискриминантным функциям независимозначных меток (аналогично интерпретации коэффициентов в факторном анализе), можно использовать коэффициенты структуры; для выявления уникального вклада каждой переменной в дискриминантные функции, используют коэффициенты дискриминантной функции (веса).

Значение дискриминантных функций. Можно найти число корней, которые вносят достаточную разницу между группами. Для интерпретации необходимо использовать только статистически значимые функции (корни), незначащие функции должны игнорироваться.

Резюме. Подводя итог, можно сказать, что при интерпретации дискриминантных функций, которые являются результатом исследований с более чем двумя группами и более, чем с одной переменной, сначала происходит расчет значений различных функций, затем, для дальнейших исследований отбираются только статистически значимые функции. Далее мы рассматриваем коэффициенты b для каждой переменной всех выбранных функций. Чем больше коэффициент b, тем больше вклад соответствующей переменной в разделение групп. Для получения независимозначных меток для дискриминантных функций, необходимо исследовать матрицу коэффициентов структуры с корреляциями между переменными и дискриминантными функциями. В заключение мы рассматриваем средние для значимых дискриминантных функций для определения тех групп, разделение между которыми определяет соответствующую функцию.

Предположения.

Как было сказано выше, анализ дискриминантных функций в вычислительном отношении очень подобен MANOVA. Фактически, можно использовать широкий диапазон диагностик и статистических тестов ANOVA/MANOVA, чтоы исследовать данные для дискриминантного анализа (чтобы избежать ненужных дублирований, обширный набор средств, обеспечиваемых в ANOVA/MANOVA не повторен в дискриминантном анализе).

Нормальное распределение. Полагаем, что данные (для переменных) представляют выборку из многомерного нормального распределения. В дискриминантном анализе это просто сделать при помощи гистограммы распределений частоты в Scrollheets (с одиночным нажатием клавиши). Таким образом, пользователь может выяснить, отвечают ли переменные нормальному распределению. Однако, следует обратить внимание, что нарушение предположения нормальности обычно не приводит к значительным ошибкам, так как ANOVA/MANOVA обеспечивает специальные тесты для проверки нормальности.

Однородность ковариационных матриц. Полагаем, что ковариационные матрицы переменных по группам равны. Малые отклонения не так важны; однако, перед принятием окончательных результатов неплохо посмотреть внутригрупповые дисперсии и матрицы корреляции. В частности, матрица scatterplot, полученная в описательной статистике, может быть очень полезна для этой цели. При необходимости, можно повторно произвести исследования, исключив одну или две группы, представляющие для нас наименьший интерес. Вы можете также использовать многочисленные тесты и средства в ANOVA/MANOVA для исследования нарушения однородности Ваших данных. Однако, как упомянуто в ANOVA/MANOVA, задача multivariate Box M для однородных ковариационных матриц особенно чувствительна к отклонениям от многомерного нормального распределения.

Корреляции между средними и дисперсиями. Ошибки при выполнении возникают, если средние для переменных по группам коррелированы с дисперсиями (или стандартными отклонениями). Интуитивно ясно, что если имеется большой variability в группе с большими значениями средних для некоторых переменных, то они не надежны. Однако, полное тестирование значений основано на объединенных дисперсиях, то есть на средней дисперсии по всем группам. Таким образом, тестирование значений относительно больших средних (с большими дисперсиями) основаны на относительно меньших объединенных дисперсиях. Практически, это происходит, если какая-либо группа содержит несколько посторонних экстремальных значений, которые оказывают большое влияние на значение средних, а также увеличивают variability. Для разрешения этой проблемы можно посмотреть описательную статистику, точнее, средние и дисперсии (стандартные отклонения) для каждой корреляции. ANOVA/MANOVA также позволяет построить графики средних и дисперсий (или стандартных отклонений) в scatterplot.

Плохо обусловленные матрицы. В дискриминантном анализе переменные, используемые для дискриминации между группами, должны быть не полностью избыточны.

В STATISTICA предусмотрена инверсия ковариационных матриц переменных в модели, но если любая из переменных полностью избыточна с другими переменными, то матрица оказывается плохо обусловленной и не может быть инвертирована.

Значения допуска. Для предотвращения появления плохо обусловленных матриц,

STATISTICA постоянно проверяет так назывемое значение допуска для каждой переменной. Это значение отображается в итоговой статистике для переменных. Значение допуска вычисляется как 1-R квадрат соответствующей переменной со всеми другими переменными, включенными в текущую модель. Таким образом, значение допуска пропорционально дисперсии, которая является уникальной к соответствующей переменной (более подробно см. Multiple Regression). Вообще, когда переменная почти полностью избыточна, (и, следовательно, матрица плохо обусловлена), значение допуска для этой переменной стремится к 0. По умолчанию в дискриминантном анализе величина минимального приемлемого допуска - 0.01. STATISTICA выдаст сообщение, что матрица обусловлена, когда допуск для любой переменной будет ниже этого значения. Это значит, что любая переменная более чем на 99% избыточна (пользователь может изменять это значение).

Классификация

Еще одной задачей дискриминантного анализа является прогнозирование классификации элементов выборки. После построения модели и получения дискриминантных функций необходимо выяснить, какой группе данный элемент выборки принадлежит.

Априорная и апостериорная информация. Если мы оцениваем полученные на некотором наборе данных дискриминантные функции, которые лучше всего разделяют группы, а затем используем те же самые данные, чтобы оценить насколько точно наше предсказание, то мы получим наилучший результат. Таким образом классификация при предсказании выборок, которые не использовались для оценки дискриминантных функций всегда будет хуже. С другой стороны, апостериорная информация всегда лучше, чем априорная. Следовательно. наиболее достоверная классификация будущих наблюдений основана на том же самом наборе данных из которого дискриминантные функции были получены.

Функции классификации. Дискриминантный анализ автоматически вычисляет функции классификации. Они используются для определения наиболее вероятной принадлежности каждого элемента выборки какой-либо группе. Количество функций классификации соответствует числу групп. Каждая функция позволяет вычислить значение классификации для элемента выборки каждой группы, по формуле:

,

где i - номер группы;

x1...xm - переменные;

ci - константа для i-ой группы;

wij - вес для j-ой переменной i-ой группы;

xj - соответствующее наблюдаемое значение j-ой переменной;

ci - i-ый класс.

Можно использовать функции классификации для непосредственного вычисления значения классификации для некоторых новых наблюдений (например, эта функция может быть определена в Data Management как формула для вычисления новых переменных; поскольку при добавлении новых выборок к файлу, значение классификации вычисляется автоматически).

Классификация элементов выборки. После вычисления значений классификации для какого-либо элемента выборки, легко установить, какой группе он принадлежит: элемент выборки принадлежит группе, для которой значение классификации наибольшее (если только вероятности априорной информации не широко несоизмеримы; см. ниже). Таким образом, при изучении выбора учащихся средней школы можно с помощью функций классификации наиболее точно предсказать, что будет каждый из них делать после окончания школы. Однако, нас также интересует вероятность, с которой студент сделает предсказанный выбор. Такие вероятности называются апостериорными, и могут быть вычислены. Однако, чтобы понять, как эти вероятности получаются, рассмотрим сначала так называемые расстояния Махалонобиса.

Расстояния Махалонобиса. Расстояние Махалонобиса - расстояние между двумя точками в пространстве, заданном двумя или более коррелированными переменными. Например, если заданы две некоррелированные переменные, то можно представить эти точки (случаи) в стандартном двумерном scatterplot; расстояние Махалонобиса в этом случае идентично евклидову расстоянию. Если имеется три некоррелированные переменные, то мы можем определить расстояние Махалонобиса в 3-D plot. Если же переменные коррелированы, то оси графиков неортогональны, то есть не расположены под углом 90 градусов друг к другу. В этом случае расстояние Махалонобиса адекватно объясняет корреляции.

Расстояния Махалонобиса и классификация. Для каждой группы в нашей выборке, мы можем определять положение точки, которая представляет средние для всех переменных в многомерном пространстве, определенном переменными в модели. Эти точки называются центрами групп. Для каждого элемента выборки можно вычислить расстояния Махалонобиса до каждого центра групп. Теперь можно сказать, что элемент выборки принадлежит группе, к центру которой является самым близким (расстояние Махалонобиса наименьшее).

Классификация апостериорных вероятностей. Использование расстояний Махалонобиса позволяет вычислять вероятности. Вероятность того, что элемент выборки принадлежит некоторой группе, пропорциональна расстоянию Махалонобиса до центра этой группы (пропорциональна не точно, потому что мы принимаем многомерное нормальное распределение вокруг каждого центра). Эти вероятности назывются апостериорными, потому что мы вычисляем положение каждого элемента выборки из нашего знания относительно значений переменных в модели. Таким образом, апостериорная вероятность - вероятность, основанная на нашем знании, что соответствующий элемент выборки принадлежит некоторой группе, относительно значений других переменных. Дискриминантный анализ автоматически вычисляет эти вероятности для все элементов.

Классификация априорных вероятностей. Введем еще один дополнительный коэффициент, необходимый для классификации. Иногда заранее известно, что количество наблюдений в одной группе больше, чем в любой другой; таким образом, априорная вероятность, что случай принадлежит этой группе, выше. Например, если мы заранее знаем, что 60% учащихся из средней школы обычно поступает в институт (20% идет в профессиональную школу, а другие 20% получают работу), то мы должны учитывать, что при прочих равных условиях, наиболее вероятно, что студент поступит в институт. Дискриминантный анализ

позволяет задать различные априорные вероятности, которые будут потом использоваться, чтобы соответствующим способом корректировать классификацию элементов (и вычисление апостериорных вероятностей).

Практически, исследователь должен выяснить, является ли неравное число элементов выборки в различных группах результатом истинного распределения или это только случайный результат, возникший при задании выборок. В первом случае необходимо установить, априорные вероятности пропорционально размерам групп в нашей выборке, а во втором. определить априорные вероятности равными в каждой группе. Выбор априорной вероятности существенно влияет на точность предсказания.

Резюме. Для того, чтобы определить. насколько хорошо функции классификации предсказывают принадлежность элемента выборки группе, можно рассмотреть матрицу классификаций. Матрица классификаций показывает число случаев, которые были правильно классифицированы (на диагонали матрицы).

Предупреждение. Повторям, что получить апостериорную вероятность того, что случилось в прошлом не трудно. Также не сложно получить очень хорошую классификацию при использовании тех же самых выборок из которых были вычислены функции классификации. Чтобы определить, насколько хороши полученные функции классификации, нужно априорно классифицировать различные выборки, то есть выборки, которые не использовались для оценки функций классификации. В дискриминантном анализе имеются возможности гибкого использования условий выбора для включения или исключения выборок из вычислений; таким образом, матрица классификаций может быть вычислена как для "старых", так и для "новых" выборок. Оценить функции классификации позволяет нам только классификация новых выборок; классификация старых выборок оказывается полезной для идентификации областей, на которых функции классификации не достаточно точны.

Резюме. Таким образом, дискриминантный анализ - очень полезный инструмент (1) для определения переменных, которые позволяют исследователю разделять группы, и (2) для классификации случаев в различные группы с высокой точностью (по сравнению со случайным).

8

Соседние файлы в папке Дискриминантный анализ