Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Курсовая работа.docx
Скачиваний:
59
Добавлен:
14.05.2015
Размер:
57.04 Кб
Скачать

2.6 Геометрическая интерпретация главных компонент

Переход к меньшему числу переменных (пусть это число p') z(1),z(2),…,z(p'), который осуществляется при помощи ортогонального линейного преобразования матрицы С = (сij), i=1,2,…, p', j=1,2,…,p, рассмотрим в качестве проекции исследуемых наблюдений Х12,…,Хn в пространство с размерностью p', натянутое на оси Oz(1),Oz(2),…,Oz(p'), причем:

Z(i)=, i=1,2,…,p'.

В данном случае проекциями p-мерных исходных наблюдений Xi (i=1,2,…,n) будет следующие точки:

Zi=CXi, i=1,2,…,n.

Геометрическую интерпретацию будем рассматривать на примере двумерной системы набдюдений ,, i=1,2,…,n, которая извлечена из нормальной генеральной совокупности со средним значением a = (a(1), a(2)) и следующей ковариционной матрицей:

, ≤1,𝞼1>0, 𝞼2>0, где

- дисперсии компонент x(1) и x(2),

r- коэффициент корреляции между ними.

Геометрическим представлением этого будет эллипсоид, в очертаниях которого располагаются точки ,. Ниже представлен график полученного эллипсоида рассеивания:

Рис. 1. Эллипс рассеяния исследуемых наблюдений

и направление координатных осей главных компонент

2.7 Подготовка данных

Пусть имеется матрица переменных X размерностью (I×J), где I - число образцов (строк), а J - это число независимых переменных (столбцов), которых, как правило, много (J>>1). Исходные переменные xj (j=1,…J).

Перед применением метода главных компонент исходные данные нужно предварительно подготовить при помощи центрирования и нормирования. Указанные преобразования выполняются по переменным.

Центрирование – это вычитание из каждой переменной xj среднего значения:

Нормирование- преобразование, которое выравнивает вклад разных переменных. При нормировании каждая переменная xj делится на своё стандартное отклонение:

.

В совокупности центрирование и нормирование называется автошкалированием:

2.8 Возможные трудности при использовании метода главных компонент

  • Отсутствие необходимой информации в данных

  • Использование недостаточного количества главных компонент

  • Использование излишнего количества главных компонент

  • Не удаленные выбросы

  • Удаленные псевдовыбросы (точки, которые содержат важную информацию)

  • Неполный анализ графиков счетов и графиков нагрузок

  • Использование стандартной (машинной) диагностики без содержательного анализа

  • Использование неправильных методов предварительной обработки исходных данных

3. Источники данных для применения метода главных компонент

Немаловажной частью для применения метода главных компонент является извлечение нужных данных. Были изучены база данных Института для метрической системы мер Здоровья и оценки и базы данных сайта службы государственной статистики.

3.1 База данных Института для метрической системы мер Здоровья и оценки (Institute for Health Metrics and Evaluation (ihme))

Институт для метрической системы мер Здоровья и оценки – это научно-исследовательский центр, который занимается глобальными статистическими исследованиями и оценкой в области здравоохранения. Сбор данных, связанных со здоровьем, происходит из всех доступных источников. Это способствует развитию аналитических инструментов для отслеживания тенденций смертности, болезней и факторов риска. IHME создал глобальный обмен данными здравоохранения (Global Health Data Exchange (GHD)), где данные занесены в каталог и находятся в свободном доступе.