Скачиваний:
115
Добавлен:
01.05.2014
Размер:
1.38 Mб
Скачать

Тема 1. Корреляционные связи и их свойства.

Предположение о природе связи. Нормальное распределение. Корреляционная матрица и её основные свойства. Собственные векторы и собственные числа корреляционной матрицы. Приведение корреляционной матрицы к диагональной форме. Геометрическая интерпретация главных компонент на плоскости. Модель главных компонент. Приближенное вычисление собственных чисел и векторов корреляционной матрицы.

  1. В чем смысл статистической гипотезы порождения данных?

  2. Опишите основные свойства многомерного нормального распределения.

  3. Опишите основные свойства корреляционной матрицы.

  4. В чем смысл корреляционной связи?

  5. Поясните геометрический смысл собственных чисел и векторов.

  6. Что такое диагональная форма корреляционной матрицы?

  7. Дайте геометрическую интерпретацию главных компонент на плоскости.

  8. Опишите модель главных компонент.

  9. Опишите алгоритм вычисления первого собственного вектора корреляционной матрицы.

Тема 2. Качественные связи и их свойства.

Понятие об измерении связи между качественными признаками. Статистический подход. Теоретико-информационный подход. Проблема интерпретации значений коэффициентов связи.

  1. Что такое матрица сопряженности?

  2. Опишите распределение К.Пирсона и его свойства.

  3. Опишите статистическую задачу проверки гипотез по критерию К.Пирсона.

  4. Перечислите коэффициенты связи, основанные на критерии К.Пирсона.

  5. Опишите задачу прогноза значений связанных признаков.

  6. Опишите меру связи Валлиса (Гудмена-Крускала).

  7. Каков смысл значений 0,5 меры связи Валлиса относительно ошибок прогноза?

  8. В чем отличие условия статистической независимости от условия наихудшего прогноза по матрице сопряженности?

  9. В чем суть проблемы интерпретации значений меры связи?

10*. Опишите способы моделирования матриц сопряженности.

3. Задача факторного анализа

3.1. Модель факторного анализа

Расмотрим корреляционную матрицу R, полученную из матрицы X, и рассмотрим несколько признаков. Наличие корреляции между ними можно понимать двояко: либо один из них определяет остальные, либо существует некоторый скрытый признак, не включенный в матрицу данных, оказывающий влияние на коррелированные признаки. Такие скрытые признаки называют общими факторами.

Основное предположение факторного анализа состоит в следующем: признаки из матрицы данных можно описать посредством небольшого числа общих факторов. Другими словами, сложные взаимосвязи между признаками определяются относительно более простой, скрытой за внешними проявлениями структурой, отражающей наиболее характерные и часто повторяющиеся взаимосвязи.

Следовательно, предполагается, что каждый признак Xj является функцией небольшого числа общих факторов F1 ,...,Fm и характерного фактора Zj , то есть Xj = (F1 ,...,Fm , Zj), где каждый из общих факторов Fi ,i=1,...,m оказывает влияние на все признаки Xj , j=1,...,n , а характерный фактор Zj влияет только на признак Xj . Характерный фактор выражает специфичность признака, которая не зависит от общих факторов и не выражается через них.

В различных факторных моделях по разному объясняется специфичность и накладываются различные ограничения на общие факторы.

Часто задача факторного анализа понимается как задача аппроксимации большой матрицы корреляций признаков меньшей матрицей факторных нагрузок или как задача аппроксимации матрицы исходных данных матрицей значений факторов на объектах. При таком подходе появляется возможность оценить как точность получаемого описания исходных данных, так и выигрыш, полученный при сжатии описания.

Предполагается, что факторная модель является линейной, то есть

Xj= , где

- исходный j-й признак, измеренный на N объектах;

- скрытый k-й фактор, принимающий значения на N объектах;

- характерный фактор;

ajk , j = 1,...,n, k = 1,...,m - факторные нагрузки, характеризующие влияние k-го фактора на j -й признак , составляющие матрицу A(nm) , где n - число исходных признаков, m -число общих факторов, m  n.

Такую систему линейных называют факторным отображением, а факторные нагрузки - его элементами.

Рассмотрим содержательный смысл такой модели. Пусть признак Xi измерен на i - ом объекте, т.е.

.

Рассмотрим психологический эксперимент, состоящий в выполнении испытуемыми ряда тестов. Тогда совокупность тестов образует совокупность исходных признаков. Значениями таких признаков на объектах являются оценки, получаемые испытуемыми за выполнение тестов. Рабочая гипотеза состоит в том. что индивидуальная оценка теста определяется:

а) способностями, необходимыми для его выполнения:

б) степенью выраженности этих способностей у испытуемых.

Если предположить, что способности - это общие некоррелированные факторы, то линейная модель интерпретируется следующим образом. Согласно формуле,

xij - оценка человека i при выполнении теста j ;

fik - степень выраженности у человека i способности k (значение - k-го фактора на i объекте);

ajk - степень проявления k способности в j-ом тесте (нагрузка k-го фактора в j-ом тесте).

Если предположить, что k способность является решающей при выполнении j теста, то нагрузка ajk будет положительной и высокой. Если одновременно человек i в достаточной степени наделен этой способностью, то значение fik будет также положительным и большим, а произведение ajk fik внесет существенный вклад в хорошую оценку выполнения теста.

Если предположить, что k способность совершенно не нужна при выполнении теста, то нагрузка ajk будет нулевой. Если даже человек i щедро одарен этой способностью (значение fik положительно и велико), произведение ajk fik будет нулевым. Это означает, что для данного человека и данного теста эта способность не влияет на оценку теста.

Предположение о линейности факторной модели является сильным упрощением реальных взаимодействий. Тем не менее такая модель экономична и часто является хорошим первым приближением реальных процессов.

Рассмотрим снова факторное отображение и вычислим корреляции признакаXk с факторами Fk , k=1,...,m и Zj. Получим:

;

.

Такая система равенств называется факторной структурой, а ее левые части

r(X j,Fk ), r(Xj ,Zj ), j=1,...,n, k=1,...,m - ее элементами. Если общие факторы не коррелируют между собой и с характерными факторами, то элементы факторной структуры совпадают с элементами факторного отображения r(X j,Fk )=ajk , r(Xj ,Zj )=dj.

Выразим структуру дисперсии признака Xj через элементы факторного отображения в предположении. что все факторы и признаки Fk , k=1,...,m, Zj ,Xj , j=1,...,n стандартизованы:

Если общие факторы не коррелируют между собой и с характерными факторами, то

.

Величина указывает долю дисперсии признака, приходящуюся наm общих факторов, и называется общностью. Величина определяет вклад характерного фактора в дисперсию признака и называется харектерностью.

Соседние файлы в папке Основы обработки данных