Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
дарыс кешены.docx
Скачиваний:
32
Добавлен:
17.02.2016
Размер:
520.3 Кб
Скачать

2. Объектілер (кластерлер) арасындағы арақашықтық және жақындылық шамасы

Классификацияны шешуде барынша қиын және барынша аз қалыптасқан болып біртекті объектілер түсінігін анықтау табылады.

Жалпы жағдайда біртекті объектілер түсінігі не кез келген зерттелініп жатқан объектілер арасындағы қашықтықты есептеу ережелерін енгізу, не i және j объектілердің жақындық дәрежесін сипаттайтынкейбір функцияларын енгізуден байқалады. Егерфункциясы берілетін болса, онда осы метрика тұрғысынан жақын объектілер бір класқа жататын біртекті болып есептеледі. Көріп отырғандай, осы кезде-ті кейбір нақты жағдайда өзіндік анықталатын мәндермен салыстырып қарау қажет.

Дәл осылай ең жақын ара қашықтық шамасын да қолданылады, оны есептеу кезінде біз келесідей шарттардың орындалуының қажеттілігін есте сақтауымыз қажет: симметрия;1≤i, j≤n кезінде және-тің ұлғаю шамасы бойынша-тің монотонды кемуі кезінде объектінің өз-өзімен максималды ұқсастығы орындалуы қажет; яғниосыдантеңсіздігі.

Метриканы немесе жақындылық шамасын таңдау бұл зерттеудің жиынтық жағдайы болып табылады, оған негізінде берілген алгоритмдер шамасында объектілерді кластарға бөлудің соңғы нұсқасы тәуелді. Кез келген нақты жағдайда бұл таңдау зерттеу мақсатына байланысты Х зерттеу векторының физикалық және статистикалық табиғатына тәуелді өзіндік жүргізілуі қажет.

Кластерлік талдауда барынша кең қолданылатын арақашықтық пен жақындылық шамаларын қарастырайық.

Махаланобис арақашықтығы

Мұндағы ∑- бас жиынның ковариациялық матрицасы, одан Хі бақылауы алынады; ал Λ – кейбір симметриалы теріс емес анықталған «салмақталған» коэффициенттерінің , ол әдетте диагоналды таңдалады.

Қарапайым евклидті қашықтық

(1)

Мұндағы xil,xjl – i-ші (j-ші) объектінің компоненттерінің (l=1,2 ….,k,I,j= l,2, ….,n) l-ші мөлшері

Бұл қашықтықты қолдану келесі жағдайларда анықталған:

  1. Бақылау бас жиыннан алынуы мүмкін, түріндегі ковариациялық матрицамен көп өлшемді бір қалыпты үлестірімді, яғни Х компоненттері өзара тәуелсіз және– к-ші ретті бірлік матрицасы болып табылатын бірдей дисперсиясы бар;

  2. Х бақылауының векторының компоненттері физикалық мағынасы тұрғысынан қарағанда біртекті және классификация үшін бірдей маңызды;

  3. Құбылыстық кеңістік геометриялық кеңістікпен сәйкес келеді.

Әрине геометриялық кеңістік тұрғысынан евклидті кеңістік мәнсіз болуы мүмкін (мазмұнды интерпретация тұрғысынан), егер құбылыстар әр түрлі өлшемде өлшенген болса. Жағдайды түзеу үшін, әрбір құбылысты орта квадраттық ауытқудың орталықтандырылған шамасын бөліп шығу жолымен және Хк матрицасынан төмендегідей элементтері бар нормаланған матрицаға көшеді:

мұндағы i объектісінің l- белгісінің мәні,l- белгісінің орташа мәні.

l- белгісінің орташа квадраттық ауытқуы.

Алайда бұл операция жағымсыз салдарға әкеп соғуы мүмкін. Егер кластерлер бір құбылыс бойынша жаксы бөлінген болса және басқа бойынша бөлінбеген болса, онда қалыптастырудан кейін бірінші құбылыстың дискриминантты мүмкіндіктері екіншінің «шуылдақ» әсерінен азаюы мүмкін.