Скачиваний:
8
Добавлен:
13.06.2019
Размер:
337.21 Кб
Скачать

4. Нормализация выбокри (п.5)

DataNorm=(Data-M)/S, где M – среднее значение столбца, S – СКО соответствующего столбца.

  1. X = zscore(X); % Нормализация выборки

5. Применение метода главных компонент

Используем PCA для получения главных компонент.

[coeff,score,latent] = pca(X); % Метод главных компонент

В общем случае функция PCA(X) возвращает набор данных из/об исходные матрицы. Входной параметр Х является матрицей исходных данных. Столбцы матрицы Х соответствуют признакам, строки - наблюдениям многомерной случайной величины. Функция возвращает матрицу главных компонент PC. Матрица PC является множеством собственных векторов ковариационной матрицы cov(Х). Размерность матрицы PC будет равна n на n, где n - количество признаков многомерной случайной величины, или число столбцов матрицы Х.

[PC,SCORE,latent,tsquare] = PCA(X) функция возвращает матрицу главных компонент PC, матрицу Z-множества данных SCORE, собственные значения latent ковариационной матрицы cov(X), вектор значений статистики T2 Хоттелинга tsquare для каждого из наблюдений.

Z-множество данных формируется проецированием матрицы наблюдений Х в пространство главных компонент. Элементы вектора latent являются дисперсиями столбцов матрицы SCORE. Статистика T2 Хоттелинга является мерой расстояния в многомерном пространстве отдельных наблюдений относительно центра группирования исходных данных.

Соответственно нас интересуют только «SCORE» и «latent».

На следующей странице представлены скаттерограммы разделения классов. После нормализации ГК теряют вес (latent), вследствие чего классы плохо разделимы в пространстве 2 ГК.

6. Визуально разделимые признаки

Задача построить гистограммы классов по каждому признаку (16 штук) и выбрать два признака, в которых классы наиболее хорошо разделимы.

Рисунок 2 Гистограмма 5 по двум признакам.

Рисунок 3 Гистограмма 10 по двум признакам.

7. Построение линейной регрессии

Рисунок 4 Скаттерограмма в пространстве 1 и 2 ГК.

Рисунок 5 Скаттерограмма в пространстве 3 ГК.

Т.к. первая ГК стремиться охватить наибольшую дисперсию (по смыслу наибольший разброс), то линия линейной регрессии будет параллельная оси первой главной компоненты. После нормализации данных «высота» этой линии будет нулевая. Используя встроенную функцию “regression” получаем угол наклона прямой порядка 10-14. Во втором случае наклон прямой -0.2502 , что и показано на рисунке.

Рисунок 6 Скаттерограмма в пространстве 5 и 10 признаков

[b,~,r] = regress(PC2,PC1, 0.05); % Строим линейную регрессию

M1=min(PC1);

M2=max(PC1);

XX=M1:0.001:M2;

YY=XX*b;

plot(XX,YY,'k');

title('Главные компоненты №1')

xlabel('Первая ГК');

ylabel('Вторая КГ');

legend({'Класс 0','Класс 1', 'Линейная регрессия'});

Соседние файлы в папке Курсовая 4 сем (Болотов М.А.)