- •19 Двоенко с.Д. Методы анализа бмд
- •1. Введение в анализ данных
- •1.1. Проблема обработки данных
- •1.2. Матрица данных
- •1.3. Гипотезы компактности и скрытых факторов
- •1.4. Структура матрицы данных и задачи обработки
- •1.5. Матрица объект-объект и признак-признак. Расстояние и близость
- •1.6. Измерение признаков
- •1.7. Отношения и их представление
- •1.8. Основные проблемы измерений
- •1.9. Основные типы шкал
- •1.10. Проблема адекватности
1.9. Основные типы шкал
Тип шкалы определяется типом преобразований, с помощью которых одна числовая система, соответствующая данной эмпирической системе, переводится в другую числовую систему, также соответствующую данной эмпирической системе.
К числу преобразований, характеризующих основные типы шкал, относятся: тождественное, подобия, сдвига, линейное, монотонное и взаимно-однозначное. Чем меньше множество числовых систем, в которые гомоморфно отображается данная эмпирическая система, тем мощнее шкала, в которой она измеряется, по набору допустимых операций над ее числовыми значениями.
Наименее мощным типом шкалы является номинальная шкала. Очевидно, что эмпирическая система с отношением эквивалентности измерима в номинальной шкале. Измерение признака в номинальной шкале состоит в разбиении объектов на классы эквивалентности, где объектам одного класса соответствует одно число. В номинальной шкале значения числовой системы UZопределены с точностью до взаимно- однозначного преобразования, гдеx- исходное числовое значение. Это означает, чтоkразличным значениямкомпонентыiпризнакаXjможно поставить в соответствиеkпроизвольных различных значений
.
Более мощной является порядковая шкала. Можно доказать, что эмпирическая система с отношением линейного порядка измерима в порядковой шкале. Числовые системы, в которые гомоморфно отображается эмпирическая система с отношением линейного порядка, должны сохранять порядок на множестве объектов, соответствующий их ранжированию. В порядковой шкале значения числовой системы определены с точностью до монотонных преобразований.
Следующая шкала уже относится к количественному типу - шкала интервалов. В такой шкале значения числовой системы измеряются с точностью до линейного преобразования вида ,. В шкале интервалов сохраняется отношение разности численных значений. Действительно, пусть объектамв некоторой числовой системе соответствуют значения,,,, то есть измерен признак. Пусть в другой числовой системе измерен признак.
Тогда получим
.
Примером измерения в шкале интервалов является значение температуры по шкалам Цельсия, Кельвина, Фаренгейта.
Следующая количественная шкала - шкала отношений. В такой шкале значения числовой системы измеряются с точностью до преобразования подобия вида . В такой шкале сохраняются отношения численных значений. Действительно, пусть объектамa1иa2соответствуют значенияив одной числовой системе и значенияив другой числовой системе, то есть значениям признакасоответствуют значения признака. Тогда получим
.
Измерениями в шкале отношений являются измерения веса, длины и прочих именованных величин, характеризующихся масштабом.
Наиболее мощной является абсолютная шкала. В ней численные значения определяются с точностью до тождественного преобразования . Результаты измерения в абсолютной шкале определяются однозначно, например, число стульев, количество рабочих. Любое преобразование кроме тождественного исказит эти измерения и приведет к неправильным данным.
1.10. Проблема адекватности
Пусть заданы две шкалы инекоторого типа. Пусть- преобразование, соответствующее этим шкалам, которое переводит их друг в друга и еще в некоторое множество шкал того же типа. Пусть проведены наблюдения надNобъектами, то есть измерены значения признаковив первой и второй шкалах соответственно.
Рассмотрим некоторую числовую операцию , которая ставит в соответствие некоторому векторунекоторое действительное число, где R - множество действительных чисел. Рассмотрим на множестве паротношениекак некоторое отношение из множества отношений. Пусть результаты числовых операцийинад значениями признаковX1иX2связаны отношением, то есть пара.
Тогда, если результаты числовых операций инад значениями признаков
и
также связаны отношением , то операцияявляется допустимой или адекватной шкале данного типа.
Рассмотрим примеры. Пусть на множестве объектов измерены признакиX1иX2в пятибалльной шкале порядка, и получена матрица X (рис. 1.12).
Рис. 1.12. Измерение в шкале порядка.
Пусть объекты из Aодинаково упорядочены по обоим признакам. Вычислим среднее по каждому признаку и получим, что, так как 2.6<3. Следовательно, можно заключить, что значения признакаX2в среднем выше значений признакаX1.
Пусть логика исследования привела к необходимости значительно увеличить число градаций признаков и перейти к 25-балльной шкале порядка. Пусть новая шкала подобрана так, чтобы большие значения признаков различались сильнее, чем малые значения. Для получения такой шкалы использовано монотонное преобразование , соответствующее типу данных шкал, то есть шкал порядка. В результате была получена матрицаY, образованная признакамии. Данное преобразованиедопустимо, так как сохраняет исходную упорядоченность объектов изA. Но, вычислив среднее арифметическое, мы обнаружим, что, так как 10>9.7. Следовательно, в данном эксперименте при переходе к другой шкале того же типа, мы должны изменить свое первоначальное заключение о средних по признакам прямо на противоположное!
Этот результат показывает, что операция среднего арифметического не адекватна шкале порядка. Тогда какая же операция усреднения адекватна шкале порядка?
Определим в качестве операции усреднения числовую операцию вида
.
Назовем такое усреднение медианой, если из ряда значений признакаXвыбирается среднее, то естьk+1 значение. Доказано, что вычисление медианы адекватно шкале порядка. В нашем примере, так как 2<3, и, так как 4<9.
Рассмотрим измерение признаков в интервальных шкалах. Пусть проведено Nизмерений температуры по шкале Цельсия в двух точках некоторого тела, то есть измерены признакиC1иC2(рис. 1.13).
Рис. 1.13. Измерение в интервальной шкале.
Вычислим среднее арифметическое по каждому из признаков ии пусть. Преобразуем наблюдения за температурой в шкале Цельсия к шкале Фаренгейта. Известно, что. Так как температурная шкала является шкалой интервалов, то преобразование видасоответствует типу этих шкал. Снова вычислим среднюю температуру по признакам в шкале Фаренгейта
и .
Легко убедиться, что . Следовательно, взятие среднего арифметического адекватно шкале интервалов и позволяет сделать одни и те же выводы при сравнении средних. И вообще, среднее арифметическое является адекватным всем более мощным шкалам.
Пусть , то есть.
Тогда и в шкале Фаренгейта. Поэтому операция отношения не адекватна интервальной шкале.
Рассмотренные примеры показывают результаты применения различных операций для измерений, произведенных в основных типах шкал. Часто такой анализ необходим при обработке информации, особенно, если она получена в менее сильных типах шкал.