Скачиваний:
115
Добавлен:
01.05.2014
Размер:
1.38 Mб
Скачать

2.11. Проблема интерпретации значений коэффициентов связи.

Применение различных мер связи даже к одним и тем же данным приводит к трудностям интерпретации интенсивности связи. Пусть, например, для некоторых трех мер связи получены значения 0.3, 0.45 и 0.55. Очевидно, что различные значения данных мер связи, полученные для одних и тех же данных, измеряют одну и ту же связь. Хотя меры связи и нормированы в пределах от 0 до 1, их поведение внутри единичного интервала различно, так как меры связи имеют разный смысл. Поэтому, получив значение 0.5 некоторой меры связи, затруднительно однозначно определить измеренную связь как сильную, умеренную или слабую. Поэтому часто выбор меры трудно обосновать, а результаты измерений при помощи разных мер трудно сравнивать.

Следовательно, возникает задача исследования поведения мер связи внутри их интервала изменения. Как правило, поведение мер связи в предельных ситуациях – около 0 и 1 – хорошо исследовано, так как стандартное значение меры должно соответствовать стандартному виду матрицы сопряженности. Аналитическое исследование поведения мер связи внутри интервала их изменения связно со значительными трудностями. Наиболее приемлемым методом исследования является численное моделирование матриц сопряженности с заранее заданной интенсивностью связи между признаками методом Монте-Карло и построение экспериментальных усредненных зависимостей значений мер связи от её интенсивности. Как правило, строгость выводов и вид зависимости значений мер связи от её интенсивности в значительной мере определяется видом модели матрицы сопряженности и методикой проведения экспериментов. Но, как правило, эксперименты с разными моделями показывают общую тенденцию в поведении каждой меры связи.

Идея моделирования матрицы сопряженности заключается в следующем. Известно, что коэффициент корреляции служит мерой линейной связи между двумя количественными переменными. При ослаблении корреляционной связи от максимальной (линейной зависимости) до минимальной (статистической независимости) изменяется характер совместного распределения значений в плоскости данных двух признаков. А именно, вид совместного распределения значений изменяется от вырожденного случая в виде линии через постепенно расширяющийся эллипс рассеивания (в котором содержится 99,73% наблюдений) до предельного эллипса рассеивания в виде окружности при условии, что признаки распределены нормально с одинаковыми дисперсиями. Будем считать коэффициент корреляции характеристикой интенсивности связи . При исследовании мер связи номинальных признаков следует задаться числом и интервалами градаций каждого признака. Тогда совместное распределение значений признака позволит сформировать матрицу сопряженности, соответствующую данному распределению.

Можно поступить по-другому. Пусть два признака распределены равномерно в единичном интервале, а величина 1- характеризует ширину интервала равномерного распределения значений одного признака относительно другого. Тогда при =0 значения второго признака равномерно распределены в единичном интервале независимо от значений первого признака, а при =1 ширина интервала равномерного разброса значений равна нулю, то есть значения признаков совпадают. Следует также ввести градации признаков и получить матрицу сопряженности.

Матрицу сопряженности можно сформировать по-разному. При справедливости гипотезы независимости выполняется соотношение

, то есть матожидание частоты совместного появления (i,j) элемента матрицы зависит только от маргинальных частот и объема выборки. При фиксированном объеме выборки можно сформировать маргинальные частоты тремя способами. Во-первых, маргинальные частоты задаются заранее и не изменяются при изменении интенсивности связи. Во-вторых, маргинальные частоты только одного признака задаются заранее, а другого изменяются при изменении интенсивности связи. В-третьих, маргинальные частоты заранее не задаются и изменяются при изменении интенсивности связи.

Например, исследование коэффициента Гудмена-Крускала (X/Y) при нормальном распределении значений признаков и заданных маргинальных частотах одного признака показывает, что значения (X/Y)0,1 соответствуют интенсивности связи выше средней >0,5, а значения (X/Y)0,2 соответствуют сильной связи 0,8 (Рис.2.5). Исследование того же коэффициента при равномерном распределении значений признаков и не заданных заранее маргинальных частотах обоих признаков показывает, что при (X/Y)>0,15 интенсивность связи выше средней >0,75. Поэтому можно сделать вывод, что значение (X/Y)=0,5 соответствует сильной связи >0,75, а поведение данной меры связи внутри интервал изменения описывается кривой, проходящей ниже биссектрисы первого квадрата системы координат (,).

Рис. 2.5. Поведение коэффициента (X/Y)

а) нормальная модель, б) равномерная модель.

2.12. Заключение.

Традиционный подход к изучению связей между признаками заключается в изучении корреляционных зависимостей между ними. Такой подход основан на статистической гипотезе порождения данных и, в частности, на гипотезе о нормальном законе распределения значений признаков. Таким образом, совокупность признаков в матрице данных рассматривается как система нормальных случайных величин, где вся информация о взаимных связях между признаками заключена в их корреляционной матрице. Проблема изучения корреляционных зависимостей весьма широка, поэтому существует целое направление – регрессионный анализ, - объединяющий совокупность статистических методов исследования данных [7,8]. Так как коэффициент корреляции является ненаправленной мерой связи, то при интерпретации корреляционной связи возникает проблема причинности – какой из двух коррелирующих признаков является причиной изменения другого признака. Решение данной проблемы кратко состоит в том, чтобы показать, что значительная доля дисерсии зависимой переменной объясняется дисперсией независимой переменной, если предполагается, что они связаны. В регрессионном анализе разработаны достаточно тонкие методы исследования корреляционных зависимостей [8]. Но мы их не рассматривали, так как нас интересует факторная модель связей признаков. Мы заранее предположили направленность связей от скрытых факторов к наблюдаемым признакам и решили объяснить дисперсии признаков влиянием скрытых факторов. С этой целью мы рассмотрели основные свойства корреляционной матрицы как матрицы линейного преобразования [2, 3, 10], модель главных компонент [6, 7, 10] и способы их вычисления [3, 9].

Анализ связи между качественными признаками представляет собой отдельную специфическую задачу. Мы кратко рассмотрели два основных подхода – статистический [5, 7] и теоретико-информационный [5] на основе измерения связи между номинальными признаками. Изучение связи между качественными признаками состоит в анализе их совместного распределения, заданного в виде таблицы сопряженности. Подробнее анализ таблиц сопряженности рассмотрен, например, в [1,4]. При измерении связи по таблице сопряженности возникает проблема интерпретации значения меры связи. В [5] показано, что исследование поведения меры связи внутри интервала её изменения выполняется численным моделированием на ЭВМ. Мы рассмотрели два способа моделирования матрицы сопряженности. Первый способ и результаты экспериментов описаны в [5]. Эксперименты вторым способом были проведены одним из авторов.

2.13. Литература к главе 2.

1.Аптон Г. Анализ таблиц соряженнности. М.: Финансы и статистика. 1982. 143 с.

2. Беллман Р. Введение в теорию матриц. М.: Наука, 1976. 352 с.

3. Гантмахер Ф. Теория матриц. М.: Наука, 1988. 552.

4. Елисеева И.И., Руквишников В.О. Логика прикладного статистического анализа. М.: Финансы и статистика, 1982. 192 с.

5. Елисеева И.И., Руквишников В.О. Группировка, корреляции, распознавание образов. М.: Статистика, 1977. 144 с.

6. Дубров А.М. Обработка статистических данных методом главных компонент. М.: Статистика, 1978. 135 с.

7. Крамер Г. Математические методы статистика. М.: Мир, 1978. 648 с.

8. Мостселлер Ф., Тьюки Дж. Анализ данных и регрессия. М.: Финансы и статиска. 1982, т.1. 317 с., т.2. 239 с.

9. Сборник научный программ на Фортране. Вып.1. Статистика. М.: Статистика, 1974. 316 с., Вып.2. Матричная алгебра и линейная алгебра. М., Статистика, 1974. 224 с.

10. Уилкс С. Математическая статистика. М.: Наука, 1867. 632 с.

2.14. Вопросы для самопроверки.

Соседние файлы в папке Основы обработки данных