- •1 Основы обработки данных
- •Предисловие
- •1. Введение в анализ данных
- •Проблема обработки данных
- •1.2. Матрица данных
- •Гипотезы компактности и скрытых факторов
- •1.4. Структура матрицы данных и задачи обработки
- •1.5. Матрица объект-объект и признак-признак. Расстояние и близость
- •1.6. Измерение признаков
- •1.7. Отношения и их представление
- •1.8. Основные проблемы измерений
- •1.9. Основные типы шкал
- •1.10. Проблема адекватности
- •1. 11. Заключение
- •1.12. Литература к главе 1
- •1.13. Вопросы для самопроверки
- •Тема 1. Представление данных и задачи обработки.
- •Тема 2. Типы признаков и их измерение.
- •2. Основы анализа связей
- •2.1. Предположение о природе связи
- •2.2. Нормальное распределение
1.8. Основные проблемы измерений
Пусть объекты измерения образуют эмпирическое множество АЕ ={а1, а2,… аN}. Пусть на множестве пар АЕ x АЕ определено отношение PЕ , например, в любой паре (аi, аj) АЕ x АЕ указан более предпочтительный объект и тогда аi аj. Тогда множество объектов АЕ и отношение PЕ образуют эмпирическую систему с отношением предпочтения (предшествования) UЕ= АЕ, PЕ.
В процессе измерения каждому объекту аi АЕ ставится в соответствие численная оценка его некоторого свойства. Измерение эмпирической системы с отношением UЕ состоит в определении соответствующей числовой системы с отношением UZ = АZ, PZ . Числовую систему UZ образуют множество чисел AZ={f(а1),…f(аN)} и отношение PZ, определенное на множестве АZ x АZ.
*
Соответствие между UE и UZ. устанавливается с помощью гомоморфного отображения f эмпирической системы с отношением UE в числовую систему с отношением UZ. Напомним, что отображение f гомоморфно, если для всякой пары (аi, аj) PЕ выполнено условие [f(аi),f(аj)] PЕ . Если в эмпирической системе с отношением UЕ= АЕ, PЕ, PЕ - отношение предпочтения (), то в числовой системе с отношением UZ = АZ, PZ, PZ- отношение "меньше-равно" (). Тогда шкалой называется тройка UE,f, UZ .
При измерении возникают следующие проблемы.
Во-первых, прежде, чем проводить измерение, следует убедиться, что существует некоторая шкала UE,f, UZ . Иными словами, надо убедиться, что существует числовая система с отношением UZ, в которую гомоморфно отображается UE. Эта проблема известна как проблема измеримости эмпирических систем.
Вторая проблема - проблема единственности - состоит в определении множества числовых систем, в которые отображается данная эмпирическая система. Все такие числовые системы переводятся друг в друга одним типом преобразования.
В-третьих, после того, как найдена числовая система, соответствующая эмпирической, над численными значениями могут производиться различные операции: сложения, сравнения и т.д. Третья проблема - проблема адекватности - состоит в том, что для каждой числовой системы определены свои допустимые операции, не искажающие смысл данных. Корректность тех или иных числовых операций определяется типом шкалы, в которой проведены измерения.
22
1.9. Основные типы шкал
Тип шкалы определяется типом преобразований, с помощью которых одна числовая система, соответствующая данной эмпирической системе, переводится в другую числовую систему, также соответствующую данной эмпирической системе.
К числу преобразований, характеризующих основные типы шкал, относятся: тождественное, подобия, сдвига, линейное, монотонное и взаимнооднозначное. Чем меньше множество числовых систем, в которые гомоморфно отображается данная эмпирическая система, тем мощнее шкала, в которой она измеряется, по набору допустимых операций над ее числовыми значениями.
Наименее мощным типом шкалы является номинальная шкала. Очевидно, что эмпирическая система с отношением эквивалентности измерима в номинальной шкале. Измерение признака в номинальной шкале состоит в разбиении объектов на классы эквивалентности, где объектам одного класса соответствует одно число. В номинальной шкале значения числовой системы UZ определены с точностью до взаимно- однозначного преобразования (x), где x- исходное числовое значение. Это означает, что k различным значениям xij{1,…k} компоненты i признака Xj можно поставить в соответствие k произвольных различных значений ( xij ){(1),(2),…(k)}.
Более мощной является порядковая шкала. Можно доказать, что эмпирическая система с отношением линейного порядка измерима в порядковой шкале. Числовые системы, в которые гомоморфно отображается эмпирическая система с отношением линейного порядка, должны сохранять порядок на множестве объектов, соответствующий их ранжированию. В порядковой шкале значения числовой системы определены с точностью до монотонных преобразований.
Следующая шкала уже относится к количественному типу - шкала интервалов. В такой шкале значения числовой системы измеряются с точностью до линейного преобразования вида (x)=x+ > 0. В шкале интервалов сохраняется отношение разности численных значений. Действительно, пусть объектам a1, a2, a3, a4 в некоторой числовой системе соответствуют значения f(a1)= x11, f(a2)= x21, f(a3)= x31, f(a4)= x41 ,то есть измерен признак X1=(x11, x21, x31, x41)Т . Пусть в другой числовой системе измерен признак (X1) == (x11x21x31x41)Т . Тогда получим
Примером измерения в шкале интервалов является значение температуры по шкалам Цель-
23
сия, Кельвина, Фаренгейта.
Следующая количественная шкала - шкала отношений. В такой шкале значения числовой системы измеряются с точностью до преобразования подобия вида x = x, > 0. В такой шкале сохраняются отношения численных значений. Действительно, пусть объектам a1 и a2 соответствуют значения f(a1) =x11 и f(a2) =x21 в одной числовой системе и значения f(a1) и f(a2)в другой числовой системе, то есть значениям признака X1= (x11,x21)Т соответствуют значения признака Ф(X1) = (x11),x21))Т . Тогда получим
Измерениями в шкале отношений являются измерения веса, длины и прочих именованных величин, характеризующихся масштабом.
Наиболее мощной является абсолютная шкала. В ней определяются с точностью до тождественного преобразования x)= x. Результаты измерения в абсолютной шкале определяются однозначно, например, число стульев, количество рабочих. Любое преобразование, кроме тождественного, исказит эти измерения и приведет к неправильным данным.