Лабораторная работа №6 / АИД_06
.docМинистерство образования и науки РФ
Санкт-Петербургский государственный электротехнический университет «ЛЭТИ»
кафедра математического обеспечения ЭВМ
Отчет
по лабораторной работе №6
«Многомерное шкалирование»
по дисциплине «Анализ и интерпретация данных»
Выполнил: студент гр. 3341 Рыжок М.С.
Проверил: Жукова Н.А.
Санкт-Петербург 2007 г.
Лабораторная работа №6
«Многомерное шкалирование»
Цель работы: познакомиться с методами многомерного шкалированияи его реализацией в системе STATISTIKA.
Предварительные сведения.
Многомерное шкалирование (МНШ) можно рассматривать как альтернативу факторному анализу. Целью последнего, вообще говоря, является поиск и интерпретация "латентных (т.е. непосредственно не наблюдаемых) переменных", дающих возможность пользователю объяснить сходства между объектами, заданными точками в исходном пространстве признаков. Для определенности и краткости, далее, как правило, будем говорить лишь о сходствах объектов, имея ввиду, что на практике это могут быть различия, расстояния или степени связи между ними. В факторном анализе сходства между объектами (например, переменными) выражаются с помощью матрицы (таблицы) коэффициентов корреляций. В методе МНШ дополнительно к корреляционным матрицам, в качестве исходных данных можно использовать произвольный тип матрицы сходства объектов. Таким образом, на входе всех алгоритмов МНШ используется матрица, элемент которой на пересечении ее i-й строки и j-го столбца, содержит сведения о попарном сходстве анализируемых объектов (объекта [i] и объекта [j]). На выходе алгоритма МНШ получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат (во "вспомогательных шкалах", связанных с латентными переменными, откуда и название МНШ), причем размерность нового пространства признаков существенно меньше размерности исходного (за это собственно и идет борьба).
Логику МНШ можно проиллюстрировать на следующем простом примере. Предположим, что имеется матрица попарных расстояний (т.е. сходства некоторых признаков) между крупными американскими городами. Анализируя матрицу, стремятся расположить точки с координатами городов в двумерном пространстве (на плоскости), максимально сохранив реальные расстояния между ними. Полученное размещение точек на плоскости впоследствии можно использовать в качестве приближенной географической карты США
В общем случае метод МНШ позволяет таким образом расположить "объекты" (города в нашем примере) в пространстве некоторой небольшой размерности (в данном случае она равна двум), чтобы достаточно адекватно воспроизвести наблюдаемые расстояния между ними. В результате можно "измерить" эти расстояния в терминах найденных латентных переменных. Так, в нашем примере можно объяснить расстояния в терминах пары географических координат Север/Юг и Восток/Запад.
Проведение лабораторной работы.
Матрица расстояний между объектами
|
C_1 |
C_2 |
C_3 |
C_4 |
C_5 |
C_6 |
C_7 |
C_8 |
C_9 |
C_10 |
… |
C_1 |
0,00000 |
0,53852 |
0,50990 |
0,64807 |
0,14142 |
0,61644 |
0,51962 |
0,17321 |
0,92195 |
0,46904 |
… |
C_2 |
0,53852 |
0,00000 |
0,30000 |
0,33166 |
0,60828 |
1,09087 |
0,50990 |
0,42426 |
0,50990 |
0,17321 |
… |
C_3 |
0,50990 |
0,30000 |
0,00000 |
0,24495 |
0,50990 |
1,08628 |
0,26458 |
0,41231 |
0,43589 |
0,31623 |
… |
C_4 |
0,64807 |
0,33166 |
0,24495 |
0,00000 |
0,64807 |
1,16619 |
0,33166 |
0,50000 |
0,30000 |
0,31623 |
… |
C_5 |
0,14142 |
0,60828 |
0,50990 |
0,64807 |
0,00000 |
0,61644 |
0,45826 |
0,22361 |
0,92195 |
0,52915 |
… |
C_6 |
0,61644 |
1,09087 |
1,08628 |
1,16619 |
0,61644 |
0,00000 |
0,99499 |
0,70000 |
1,45945 |
1,00995 |
… |
C_7 |
0,51962 |
0,50990 |
0,26458 |
0,33166 |
0,45826 |
0,99499 |
0,00000 |
0,42426 |
0,54772 |
0,47958 |
… |
C_8 |
0,17321 |
0,42426 |
0,41231 |
0,50000 |
0,22361 |
0,70000 |
0,42426 |
0,00000 |
0,78740 |
0,33166 |
… |
C_9 |
0,92195 |
0,50990 |
0,43589 |
0,30000 |
0,92195 |
1,45945 |
0,54772 |
0,78740 |
0,00000 |
0,55678 |
… |
C_10 |
0,46904 |
0,17321 |
0,31623 |
0,31623 |
0,52915 |
1,00995 |
0,47958 |
0,33166 |
0,55678 |
0,00000 |
… |
… |
…. |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
Итоговая конфигурация – координаты объектов на плоскости:
|
X |
Y |
C_1 |
-1,27584 |
0,003040 |
C_2 |
-1,27310 |
0,149335 |
C_3 |
-1,35022 |
0,102764 |
C_4 |
-1,29211 |
0,146386 |
C_5 |
-1,29384 |
-0,008143 |
C_6 |
-1,14002 |
-0,107917 |
C_7 |
-1,33571 |
0,069525 |
C_8 |
-1,24935 |
0,040179 |
C_9 |
-1,35995 |
0,225961 |
C_10 |
-1,25669 |
0,126732 |
C_11 |
-1,22837 |
-0,084023 |
C_12 |
-1,24256 |
0,067531 |
C_13 |
-1,30614 |
0,160479 |
C_14 |
-1,50193 |
0,170518 |
C_15 |
-1,27660 |
0,391081 |
C_16 |
-1,24778 |
-0,341855 |
C_17 |
-1,28830 |
-0,138122 |
C_18 |
-1,26395 |
-0,000215 |
C_19 |
-1,08223 |
0,152186 |
C_20 |
-1,25287 |
-0,057111 |
C_21 |
-1,12616 |
0,000528 |
C_22 |
-1,23073 |
-0,040053 |
C_23 |
-1,48886 |
0,021548 |
C_24 |
-1,11967 |
0,038622 |
C_25 |
-1,13687 |
0,085817 |
C_26 |
0,50161 |
0,325890 |
C_27 |
0,36531 |
0,143455 |
C_28 |
0,56716 |
0,268612 |
C_29 |
0,05837 |
-0,230075 |
C_30 |
0,42029 |
0,109897 |
C_31 |
0,24622 |
-0,087331 |
C_32 |
0,43965 |
0,134834 |
C_33 |
-0,31045 |
-0,340995 |
C_34 |
0,40335 |
0,179150 |
C_35 |
-0,01611 |
-0,236145 |
C_36 |
-0,21263 |
-0,456608 |
C_37 |
0,20061 |
-0,008307 |
C_38 |
0,06856 |
-0,030993 |
C_39 |
0,38052 |
0,025305 |
C_40 |
-0,08049 |
-0,057627 |
C_41 |
0,36052 |
0,229448 |
C_42 |
0,25911 |
-0,126382 |
C_43 |
0,08266 |
-0,048023 |
C_44 |
0,35412 |
-0,123475 |
C_45 |
0,00874 |
-0,125470 |
C_46 |
0,44964 |
-0,042081 |
C_47 |
0,13334 |
0,042325 |
C_48 |
0,49189 |
0,037533 |
C_49 |
0,35147 |
0,023861 |
C_50 |
0,27578 |
0,120156 |
C_51 |
1,19324 |
-0,167372 |
C_52 |
0,71152 |
-0,246677 |
C_53 |
1,19545 |
0,119933 |
C_54 |
0,92981 |
-0,063112 |
C_55 |
1,07993 |
-0,054314 |
C_56 |
1,51062 |
0,271251 |
C_57 |
0,36246 |
-0,599217 |
C_58 |
1,32322 |
0,228611 |
C_59 |
1,05210 |
0,100867 |
C_60 |
1,38262 |
0,062353 |
C_61 |
0,82723 |
0,008127 |
C_62 |
0,85620 |
-0,076053 |
C_63 |
1,01482 |
0,036242 |
C_64 |
0,68448 |
-0,331061 |
C_65 |
0,80114 |
-0,329211 |
C_66 |
0,93722 |
-0,109601 |
C_67 |
0,92171 |
0,002017 |
C_68 |
1,64835 |
0,195730 |
C_69 |
1,64042 |
0,371049 |
C_70 |
0,65387 |
-0,294085 |
C_71 |
1,13397 |
0,048546 |
C_72 |
0,63287 |
-0,330411 |
C_73 |
1,54826 |
0,336840 |
C_74 |
0,70431 |
-0,098657 |
C_75 |
1,07475 |
0,016459 |
График итоговой конфигурации
D-Stars и D-Hats - расстояния
D-stars вычисляются с помощью процедуры, известной как метод вычисления отклонений по Гутману. В общих чертах, эта процедура стремится воспроизвести ранговый порядок различий в матрице различий.
D-hats вычисляются с помощью процедуры, называемой процедурой преобразования методом монотонной регрессии. В этом случае программа пытается определить наилучшее монотонное (регрессионное) преобразование для воспроизведения различий в исходной матрице.
D-hats расстояния
|
C_1 |
C_2 |
C_3 |
C_4 |
C_5 |
C_6 |
C_7 |
C_8 |
C_9 |
C_10 |
… |
C_1 |
0,000000 |
0,157749 |
0,140714 |
0,191453 |
0,021190 |
0,188124 |
0,140714 |
0,039396 |
0,295231 |
0,140714 |
… |
C_2 |
0,157749 |
0,000000 |
0,075910 |
0,075910 |
0,188124 |
0,341176 |
0,140714 |
0,116289 |
0,140714 |
0,039396 |
… |
C_3 |
0,140714 |
0,075910 |
0,000000 |
0,059422 |
0,140714 |
0,341176 |
0,059422 |
0,116289 |
0,117439 |
0,075910 |
… |
C_4 |
0,191453 |
0,075910 |
0,059422 |
0,000000 |
0,191453 |
0,366671 |
0,075910 |
0,140714 |
0,075910 |
0,075910 |
… |
C_5 |
0,021190 |
0,188124 |
0,140714 |
0,191453 |
0,000000 |
0,188546 |
0,117439 |
0,046934 |
0,295231 |
0,157749 |
… |
C_6 |
0,188124 |
0,341176 |
0,341176 |
0,366671 |
0,188546 |
0,000000 |
0,302965 |
0,226812 |
0,498589 |
0,302965 |
… |
C_7 |
0,140714 |
0,140714 |
0,059422 |
0,075910 |
0,117439 |
0,302965 |
0,000000 |
0,116289 |
0,182528 |
0,140714 |
… |
C_8 |
0,039396 |
0,116289 |
0,116289 |
0,140714 |
0,046934 |
0,226812 |
0,116289 |
0,000000 |
0,254750 |
0,086863 |
… |
C_9 |
0,295231 |
0,140714 |
0,117439 |
0,075910 |
0,295231 |
0,498589 |
0,182528 |
0,254750 |
0,000000 |
0,188124 |
… |
C_10 |
0,140714 |
0,039396 |
0,075910 |
0,075910 |
0,157749 |
0,302965 |
0,140714 |
0,086863 |
0,188124 |
0,000000 |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
D – stars расстояния
|
C_1 |
C_2 |
C_3 |
C_4 |
C_5 |
C_6 |
C_7 |
C_8 |
C_9 |
C_10 |
… |
C_1 |
0,000000 |
0,144614 |
0,124408 |
0,186564 |
0,019240 |
0,165205 |
0,138296 |
0,022105 |
0,287355 |
0,113794 |
… |
C_2 |
0,144614 |
0,000000 |
0,062389 |
0,070963 |
0,164034 |
0,352980 |
0,127155 |
0,097354 |
0,125068 |
0,028183 |
… |
C_3 |
0,124408 |
0,062389 |
0,000000 |
0,036267 |
0,124473 |
0,349606 |
0,042952 |
0,093180 |
0,100070 |
0,064388 |
… |
C_4 |
0,186564 |
0,070963 |
0,036267 |
0,000000 |
0,181563 |
0,386993 |
0,067356 |
0,122486 |
0,051872 |
0,065630 |
… |
C_5 |
0,019240 |
0,164034 |
0,124473 |
0,181563 |
0,000000 |
0,167018 |
0,110174 |
0,031567 |
0,288180 |
0,141738 |
… |
C_6 |
0,165205 |
0,352980 |
0,349606 |
0,386993 |
0,167018 |
0,000000 |
0,315308 |
0,205120 |
0,525641 |
0,324061 |
… |
C_7 |
0,138296 |
0,127155 |
0,042952 |
0,067356 |
0,110174 |
0,315308 |
0,000000 |
0,096560 |
0,151755 |
0,115783 |
… |
C_8 |
0,022105 |
0,097354 |
0,093180 |
0,122486 |
0,031567 |
0,205120 |
0,096560 |
0,000000 |
0,239308 |
0,071044 |
… |
C_9 |
0,287355 |
0,125068 |
0,100070 |
0,051872 |
0,288180 |
0,525641 |
0,151755 |
0,239308 |
0,000000 |
0,153050 |
… |
C_10 |
0,113794 |
0,028183 |
0,064388 |
0,065630 |
0,141738 |
0,324061 |
0,115783 |
0,071044 |
0,153050 |
0,000000 |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |
… |