Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Методические указания и задания МАД.doc
Скачиваний:
40
Добавлен:
05.05.2019
Размер:
752.64 Кб
Скачать

8. Временные ряды

Главные понятия

Основные цели анализа временных рядов: определение природы ряда и прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям). Обе эти цели требуют, чтобы модель ряда была идентифицирована и формально описана.

Большинство регулярных составляющих временных рядов принадлежит к двум классам: они являются либо трендом, либо сезонной составляющей. Тренд представляет собой общую систематическую линейную или нелинейную компоненту, которая может изменяться во времени. Сезонная составляющая – это периодически повторяющаяся компонента. Оба эти вида регулярных компонент часто присутствуют в ряде одновременно.

Сглаживание включает некоторый способ локального усреднения данных, при котором несистематические компоненты взаимно погашают друг друга.

Метод сглаживания скользящее среднее, в котором каждый член ряда заменяется простым или взвешенным средним m соседних членов, где m – длина интервала сглаживания.

Простое экспоненциальное сглаживание

Точная формула простого экспоненциального сглаживания имеет следующий вид:

Лаг – значение порядка k корреляционной зависимости между каждым i-м элементом ряда и (i-k)-м элементом.

Пример 7.1. Преобразование переменных.

Преобразования переменных (трансформация, дифференцирование) являются необходимым этапом, предшествующим дальнейшему анализу ряда, например, ARIMA-анализу. В данном примере приводятся поэтапные преобразования временных рядов с объяснением целей.

Исходные данные: Файл stocks.sta содержит цены на товары в двух торговых филиалах. Им соответствуют переменные, значения которых и есть цены в течение 200 дней. Открытие файла stocks.sta выполняется стандартным способом из меню File.

Спецификация анализа. Для начала анализа выберите Time Series/Forecasting из меню Advanced Linear/Nonlinear Models модуля Statistics. На открывшейся стартовой панели Time Series/Analysis в диалоговом оконе выберите переменные STOCK1 и STOCK2, и после нажатия OK откроется диалог модуля Time Series Analysis.

В активной рабочей области предъявляются заголовки двух переменных, соответствующие двум временным рядам, один из которых является активным (подсвеченным). Здесь же можно задать число шагов возврата (backups) – для просмотра в случае необходимости нескольких этапов преобразований (по умолчанию, 3). Устанавливается также соглашение по устранению пропущенных данных (Missing) – одним из предлагаемых методов (общее среднее, интерполяция и др.). В данном примере принимается интерполяция – опцией Interpolation from adjacent points на закладке Missing Data.

Просмотр временных рядов. Для просмотра обоих временных рядов нажмите OK (Transformations, autocorrelations, crosscorrelations, plots), чтобы перейти к диалогу Transformations of Variables.

Для рассмотрения временного ряда предлагается несколько опций закладки Review & plot. В частности, задается масштабирование горизонтальной (временной) оси диалога отбора. Поскольку активный временной ряд STOCK1 включает данные по торговым неделям (с понедельника по пятницу), то на Оси Х (Scale X) масштаб задайте вручную: Min=1 (начиная с первого дня) и размер шага (Step=5). Для просмотра временного ряда нажмите кнопку Review highlighted variable, и получите сначала таблицу, а затем график.

Для одновременного построения графиков двух временных рядов (для обоих магазинов) выберите кнопку Review multiple variables.

Создание графика с различными шкалами. Можно масштабировать вертикальные параметры для обоих графиков, чтобы получить лучшее вертикальное разрешение. Нажмите Plot two var lists with different scales и в получившемся диалоговом окне Select variables for the Spreadsheet/plot выберите график STOCK1 в верхней части, а STOCK2 – в нижней. Этот график позволяет сравнить данные двух магазинов более наглядно.

Преобразование временных рядов. В диалоговом окне Transformations of Variables (преобразование переменных) подсветите данные STOCK1. Различные кнопки в этом диалоговом окне показывают все общие преобразования для данных временного ряда. Для серии STOCK1 определите преобразование простого скользящего среднего с 5 точками на закладке Smoothing (сглаживание). Выберите опцию N-pts Mov Averg равной 5. Затем нажмите OK (Transformations, autocorrelations, crosscorrelations, plots). На преобразованном графике видно, что диаграмма стала менее «зубчатой», и более выражен тренд.

Вернитесь к диалоговому окну Transformations of Variables (преобразование переменных). Преобразованный (выровненный) ряд уже приобщен к активной рабочей области.

Дальнейшая обработка преобразованного ряда. Преобразованные ряды имеют самостоятельный статус и могут быть сохранены, удалены, активизированы и т.п. Подсветив в активной рабочей области исходный и трансформированный ряды, постройте их совместный график.

Можно продолжить преобразование уже трансформированного ряда с последующим занесением его в рабочую область. На закладке Smoothing выберите Simple exponential (простое экспоненциальное сглаживание) с параметром alpha=0.20. Затем выберите еще опцию 4253filter (это мощная методика сглаживания/фильтрации) и снова нажмите OK(Transform selected series). Теперь имеются 3 преобразованных ряда, которые приобщены к активной рабочей области.

Анализ автокорреляций. Сначала получите диаграмму для переменной STOCK2 (подсветите STOCK2 и нажмите Review highlighted variable на закладке Reviev & plot).

По графику видно, что STOCK2 имеет убывающий тренд, что сместит автокорреляционную функцию. Чтобы исключить тренд, выберите закладку х=f(x), затем Trend subtract, и щелкните OK (Transform selected series), после чего можно просмотреть результаты.

Теперь нажимите Autocorrelations на закладке Autocorrs, чтобы показать электронную таблицу и график автокорреляционной функции. Корреляция для лага 1 наибольшая и медленно убывает; график частной автокорреляционной функции также подтверждает случайный характер модели. Кроме самой сильной автокорреляции в лаге 1, ни одна из частных автокорреляций не существенна.

Можно исключить сильную автокорреляцию вычислением разностей рядов (дифференцированием). Для этого на закладке Difference, integrate выберите Differencing (x=x-x(lag)) и нажмите OK.

Теперь ни одна автокорреляция не существенна. STOCK2 действительно соответствует модели случайных изменений, и, к сожалению нельзя предсказать его дальнейшего поведения.

Пример 7.2. ARIMA – анализ (Single Series ARIMA).

Данные. В данном примере приведены статистические данные о месячных объемах перевозок пассажиров одной авиакомпанией за десять лет. Файл данных series_g.sta открывается для обработки стандартным способом – с помощью опции Open Examples из меню File. В данных временного ряда заметна тенденция роста, а также сезонные колебания.

Спецификация. Выбрав Time Series/Forecasting из меню Statistics Advanced Linear/Nonlinear Models откройте стартовую панель Time Series Analysis. Указав переменную ряда (Var1), на закладке Quick выберите пункт ARIMA & autocorrelation functions, после чего отображается диалог Single Series ARIMA.

Фаза идентификации. Для идентификации параметров ARIMA(p,d,q) вначале нужно произвести преобразование переменных. Для этого на закладке Advanced нажмите кнопку Other transformations & plots. В диалоге Transformations of Variables выберите закладку Review & plot, отметьте маркером режим установки параметров Scale X axis in plots manually и задайте параметры Min=1, Step=12. Поскольку имена наблюдений являются соответствующими датами, в окне выбора подписей Label data points with отметьте маркером Case names. Для получения диаграммы нажмите кнопку Plot рядом с Review highlighted variable. На диаграмме явно наблюдаются как тренд, так и сезонность. Для того чтобы определить параметры ARIMA, нужно использовать автокорреляцию и частную корреляцию.

На диаграмме заметна также мультипликативная сезонность – амплитуда сезонных колебаний растет со временем, что может определять величину автокорреляции. Для стабилизации этой вариативности выполняется логарифмическое преобразование переменных. На закладке x=f(x) выберите опцию Natural log (x=ln(x)). После команды OK (Transform selected series) выводится диаграмма.

Как видно, амплитуда колебаний стабилизировалась, и ряд подготовлен для дальнейшего анализа с помощью автокорреляции. Фактически, логарифмическое преобразование привело к ряду с аддитивной сезонностью.

Автокорреляции. Перейдите на закладку Autocorrs и, нажав кнопку Autocorrelations, получите таблицу и диаграмму автокорреляций (коррелограмму).

Диаграмма указывает на сильную зависимость уровней ряда с наибольшей автокорреляцией для первого лага. Для исключения этой зависимости будет выполнено несезонное разделяющее преобразование ряда, или дифференцирование (Differencing) – получение разности первого порядка, т.е. с лагом 1, причем из уже прологарифмированного ряда, который автоматически является сейчас активным (подсвеченным). Откройте закладку Difference, integrate и выберите опцию Differencing (x=x-x(lag)) со значением lag=1. Фактически производится вычитание из текущих значений ряда непосредственно предшествующих. После нажатия OK (Transform selected series) преобразованный ряд будет представлен на диаграмме.

Теперь каждый элемент преобразованного ряда представляет разность первого порядка – между уровнями исходного ряда и непосредственно предшествующими уровнями. При этом ряд стал на один уровень короче, поскольку первый уровень не участвует в разделяющем преобразовании. Возвратившись к диалогу Transformations of Variables и к закладке Autocorrs, нажмите кнопку Autocorrelations.

Теперь исключена не только зависимость первого порядка (с лагом 1), но и другие уровневые зависимости (поскольку автокорреляции для последовательных лагов взаимозависимы).

Сезонная зависимость. Бывает, что исключение зависимости между уровнями ведет к увеличению сезонной зависимости (с лагом 12, а также 24,36 и др.). Это указывает на сильный сезонный фактор, отражающий сезонность в перевозках пассажиров.

Сезонная корректировка с лагом 12 (вычитание уровней) приведет к исключению такой зависимости. Возвратившись к диалогу Transformations of Variables, выберите пункт Differencing (x=x-x(lag)) и измените значение lag на 12. Выполнив дифференцирование с лагом 12 – OK (Transform selected series), получите диаграмму.

Вычислите автокорреляцию (закладка Autocorrs, кнопка Autocorrelations). Наиболее сильные автокорреляции теперь исключены. И хотя еще остались автокорреляции, превышающие в 2 раза свои стандартные ошибки, не стоит выполнять последующее дифференцирование, чтобы не уничтожить эффект влияния параметров скользящего среднего.

Теперь выберите пункт Partial autocorrelations (частные, или «внутрилаговые» автокорреляции, т.е. автокорреляции без учета лага).

Выбор параметров. Теперь коррелограмм выглядит хорошо (отметим его синусоидальную форму), и можно приступить к ARIMA. Сезонный ARIMA (lag=12) будет применен к данным, которые будут дифференцированы несезонно (lag=1) и сезонно (lag=12) и преобразованы (с помощью натурального логарифмирования) в ARIMA.

Определяются два параметра скользящего среднего: один сезонный (Qs) и один несезонный (q). Параметры авторегрессии не задаются. Таким образом, ARIMA(0, 1, 2) содержит 0 (нуль) параметров авторегрессии и 2 параметра скользящего среднего, которые вычисляются для ряда после взятия разности с лагом 1.

ARIMA интегрирующее преобразование. Предварительно требуется, чтобы данные подверглись логарифмической трансформации и двум типам дифференцирования (несезонного и сезонного). Обе эти модификации данных уже выполнены, и их результаты представлены на диаграммах и кореллограммах. Модифицированные ряды, видимые в рабочей области, после этого непосредственно передаются в ARIMA.

Однако в некоторых случаях, подобных этому, рекомендуется произвести анализ начального ряда и выбрать необходимые преобразования данных вместе с ARIMA. Тогда ARIMA будет «знать» о модификациях. При вычислении прогноза расчет будет выполняться по «интегрированным» (т.е. подвергнутым обратной модификации) данным, которые будут сопоставлены с исходными для удобства интерпретации.

Заметим, что в ARIMA можно производить логарифмирование и возведение в степень, а также сезонное и несезонное разделение (дифференциацию). В других случаях нужно выполнять преобразования до ARIMA.

Несмотря на то, что в примере данные уже модифицированы, вернемся назад и выполним трансформацию данных внутри ARIMA.

Диалог спецификации в ARIMA. Вернитесь в диалог Single Series ARIMA, отменив (по кнопке Cancel) предыдущие трансформации. Теперь выделенным вновь будет исходный временной ряд. Диалог ARIMA &autocorrelation function дает возможность задать параметры авторегрессии и скользящего среднего. Нельзя перейти к следующему шагу, пока не заданы параметры (p, P, q, Q) авторегрессии и скользящего среднего. Однако прежде нужно выполнить преобразования трансформации и дифференцирования.

В пункте Transform variable (series) prior to analysis на закладке Quick установите опции Natural Log и Difference, специфицируйте значения лага 1.Lag=1 и N.of passes=1. Таким образом, задается логарифмическая трансформация и несезонное дифференцирование. Для спецификации сезонного преобразования устанавите в пункте 2.Lag значение 12 и снова N.of passes=1.

Параметры ARIMA. На фазе идентификации ARIMA было принято решение о включении двух параметров скользящего среднего (один простой (q) и один сезонный (Q)) и ни одного параметра авторегрессии. Итак, имеем 0 (p, P) и 1 (q, Q).

Оценка параметров. Предлагается два метода вычисления оценок максимального правдоподобия: методы Approximate (McLeod & Sales) и Exact (Melard). В нашем примере используется второй метод, который и выделяется маркером в диалоговом окне. Процесс вычисления запускается нажатием OK (Begin parameter estimation). Его результаты предъявляются в диалоговом окне Single Series ARIMA Results.

Выходные данные ARIMA предъявляются также в виде таблицы – по кнопке Summary: Parameter estimates. Оба параметра скользящего среднего имеют высокую статистическую значимость

Опции прогноза и вычисление. В блоке Forecasting (прогноз) на закладке Advanced предлагается изменить или принять автоматические значения опций. Это касается периода прогнозирования (12 месяцев вперед, т.е. полный сезонный цикл) и стартового значения 121, поскольку последнее наблюдение было 120-м. После этого нажатием кнопки Forecast cases можно получить таблицу прогнозируемых значений. Очень удобно просмотреть графически результат прогнозирования (Plot series & forecasts).

На графике представлены начальные уровни ряда (1997 – 2006), прогнозируемые уровни и их доверительные границы. Как видно, прогноз, созданный нашей ARIMA-моделью, вполне приемлем.

Можно еще вернуться в Single Series ARIMA ResultsAdvanced, чтобы проделать ретроспективный прогноз, т.е. предсказать с помощью полученной модели наблюдения за последние 12 месяцев и сравнить их с исходными. Для этого достаточно задать Start at case = 120-12+1, т.е. 109. Полученный график свидетельствует о хорошей подгонке модели.

Анализ остаточной последовательности. Он необходим для оценки адекватности прогноза. Ряд остатков (1) должен быть нормально распределен и (2) уровни ряда независимы. Используется закладка Distribution of residual.

(1)В нормальности распределения остаточной последовательности можно удостовериться с помощью гистограммы остатков или диаграммы нормальной вероятности normal probability plots.

(2)Независимость остатков проверяется с помощью автокорреляционной функции (Autocorrelation). Как видно, автокорреляция практически отсутствует.

На этом заканчивается анализ временного ряда на основе ARIMA-модели.

Приложение

Среднее значение Mean

, где j – номер переменной, i- номер наблюдения.

Выборочная оценка математического ожидания величины переменной.

Стандартное (среднеквадратическое) отклонение

Standard deviation (St.d)

Характеристика вариации переменной. Оценка величины разброса значений переменной относиельно среднего.

Дисперсия (вариация) Variance

Количественная оценка вариации переменной. Квадрат стандартного отклонения.

Мода

Mode

Наиболее часто наблюдаемое значение переменной.

Медиана

Median

Значение переменной, которое делит совокупность наблюдений на две равные части.

Асимметрия

Skewness

Несимметричность распределения относительно центра.

Эксцесс

Kurtosis

Мера «вытянутости» кривой распределения относительно нормальной кривой.

Доверительный интервал (границы) для среднего

Confident limits for mean

, где - стандартная ошибка среднего

Интервал, в который с требуемой вероятностью входит математическое ожидание величины среднего.

Корреляция Correlation

Выявленная статистическая связь переменных. Значению переменной X соответствует среднее значение на подмножестве переменной Y

Коэффициент парной корреляции (Пирсона)

Pair correlation

Количественная оценка тесноты линейной связи. Границы изменения от -1 до 1

Коэффициент частной корреляции

Partial correlation

, где - миноры матрицы корреляций

Коэффициенты выражают тесноту связи пары переменных, но после учета влияния остальных переменных

Статистическая значимость коэффициентов корреляции

Statistical significance

(t-критерий Стьюдента)

Уровень значимости (p-level) значения t характеризует статистическую значимость в сравнении с 0,05

Множественный коэффициент детерминации

Multiply R2 (R?)

, где - определитель и минор матрицы , взятые по модулю

Этот коэффициент оценивает долю вариации зависимой переменной объясненную вариацией совокупности независимых пременных (предикторов). Изменяется в пределах от 0 до 1

Коэффициент множественной корреляции (множественное корреляционное отношение)

Multiply R

Численная оценка тесноты связи зависимой переменной со всеми предикторами. Изменяется в пределах от 0 до 1

Ковариация

Covariation

Оценка совместной изменчивости двух переменных

Уравнение множественной линейной регрессии

Linear Multiply regression

Линейное уравнение, полученное по данным выборки и выражающее связь переменных

Коэффициенты регрессии (B-коэффициенты)

Коэффициенты уравнения линейной регрессии, найденные по матрице наблюдений X и значениям зависимой переменной Y с помощью метода наименьших квадратов

Сумма квадратов отклонений регрессии

SS Regression

Сумма квадратов, объясненная уравнением регрессии.

Остаточная сумма квадратов отклонений

SS Residual

Оценивает долю вариации зависимой переменной, не объясненную предикторами

Общая сумма квадратов отклонений

SS Total

Оценка общей вариации зависимой переменной

Разложение суммы квадратов

Характеризует вклад в общую вариацию зависимой переменной регрессионной и остаточной компонент

Степени свободы

df (degree of free)

Для каждой суммы квадратов формируется свое число степеней свободы, зависящее от числа наблюдений n и количества параметров в модели p. Далее степени свободы указаны в знаменателях формул дисперсий

Дисперсия регрессии

Mean SS regression

(p-число параметров уравнения регрессии)

Дисперсия (вариация), объясненная уравнением регрессии

Остаточная дисперсия

Mean SS residual

Дисперсия (вариация), не объясненная уравнением регрессии. (n – число наблюдений; p-число параметров уравнения регрессии)

Общая дисперсия

Mean SS total

(n – число наблюдений)

Характеризует общую вариацию зависимой переменной, объясненную влияющими переменными и случайными отклонениями

Адекватность модели (уравнения)

Соответствие полученной модели (уравнения связи) действительной взаимосвязи переменных при заданном уровне значимости. Правильно построенная модель связи достаточно точно отражает имеющуюся взаимосвязь

Проверка адекватности модели (уравнения связи) по F-критерию

;

;

p-level

Наблюдаемое значение F-критерия равно отношению дисперсий регрессии и остатка. Уровень значимости p, близкий к 0,05, свидетельствует о статистической значимости F-критерия

Статистическая значимость коэффициентов регрессии

(по t-критерию)

де - диагональные элементы матрицы ;

p-level

Наблюдаемое значение t-критерия находят для каждого коэффициента регрессии. Уровень значимости p, близкий к 0,05, свидетельствует о статистической значимости коэффициента

Дисперсионный анализ

ANOVA (Analysis of Variances)

Исследование различия средних в двух или более группах наблюдений.

Основная цель дисперсионного анализа - это объяснение вариации переменной за счет вариации влияющих факторов или случайных воздействий и разложение общей суммы квадратов отклонений от средних на компоненты с последующей оценкой значимости

Одномерный дисперсионный анализ

ANOVA

Одномерная модель дисперсионного анализа используется при наличии одного результативного признака.

При наличии одного влияющего фактора – однофакторный дисперсионный анализ; в случае нескольких факторов – многофакторный дисперсионный анализ. Факторы имеют несколько уровней изменения

Эффект

Эффект (главный эффект) есть оценка влияния фактора (факторов), объясняющая часть общей вариации зависимой переменной

Взаимодействие

Оценка влияния взаимодействующих факторов. Парное взаимодействие объясняет часть общей вариации зависимой переменной комбинацией уровней факторов. Могут учитываться также взаимодействия более высоких порядков

Разложение сумы квадратов в парном дисперсионном анализе

Характеризует вклад фактора и случайных воздействий (и, возможно, неучтенных факторов) в общую вариацию зависимой переменной

Межгрупповая сумма квадратов (факторная)

SS between groups

где - средние по группам и общая средняя;

- внутригрупповые частоты;

Межгрупповая сумма квадратов (межгрупповая вариация) обусловлена изменением уровней фактора – различием средних значений в группах

Средняя внутригрупповая сумма квадратов (остаточная)

SS within group

- наблюдения, попавшие в j-ю группу (j=1,…,k)

Внутригрупповые суммы квадратов обусловлены не влиянием фактора, а случайной вариацией переменной внутри групп

Общая сумма квадратов

Общая сумма квадратов характеризует общую вариацию переменной.

Межгрупповая дисперсия (факторная)

Межгрупповая дисперсия объясняется влиянием фактора

Средняя внутригрупповая (остаточная) дисперсия

Остаточная дисперсия объясняется случайной вариацией зависимой переменной

Общая дисперсия

Общая вариация зависимой переменной

Оценка значимости различия средних (влияния фактора) по F-критерию

; p-level

Наблюдаемое значение F-критерия равно отношению дисперсий эффекта и остатка. Уровень значимости p, близкий к 0,05, свидетельствует о статистической значимости F-критерия

Многомерный дисперсионный анализ

MANOVA (Multicriterian Analysis of Variance)

Многомерный дисперсионный анализ используется при наличии нескольких влияющих факторов и нескольких зависимых переменных и выявляет взаимосвязь двух групп переменных

Дискриминантный анализ

Discriminant analysis

Дискриминантный анализ разрабатывает методы решения задач различения (дискриминации) объектов по определенным признакам. Цель дискриминантного анализа состоит в том, чтобы на основе значений нескольких переменных (дискриминирующих признаков) провести классификацию объектов оптимальным способом

Каноническая дискриминантная функция

Discriminant functions

Функция, по значению которой определяется принадлежность объекта к классу. Коэффициенты этой функции подбираются так, чтобы внутриклассовая вариация была минимальной, а межклассовая – максимальной

Пошаговый дискриминантный анализ с включением Forward stepwise analysis

Пошаговый анализ с включением предполагает перебор переменных и выбор той, которая вносит наибольший вклад в различие между группами. После ее включения в модель выполняется следующий шаг – включение второй переменной и т.д., пока влияние переменных существенно. Вклад переменной оценивается величиной F-отношения (F для включения)

Пошаговый дискриминантный анализ с исключением

Backward stepwise analysis

Пошаговый анализ с исключением движется в обратном направлении: сначала все переменные включаются в модель, а затем последовательно исключаются наименее значимые – по оценке F для исключения

Канонический анализ (канонические корреляции)

Canonical correlation

- канонический анализ используется, когда имеется две группы переменных и . Основная цель применения этого метода – поиск максимальных корреляционных связей между группами исходных переменных

Канонические переменные

Canonical variances

Линейные комбинации элементарных (наблюдаемых) признаков – переменных

Канонический коэффициент корреляции

Оценивает тесноту связи между двумя группами переменных. Изменяется в пределах от 0 до 1

Расширенная ковариационная матрица

Состоит из четырех блоков-матриц: ковариаций фактор-признаков (S11), ковариаций факторов с результатами (S12, S21) и ковариаций результатов (S22)

Собственные значения Eigenvalues

- собственные значения матрицы

Максимальное значение определяет величину канонического коэффициента корреляции

Кластерный анализ

Cluster analysis

Методы кластерного анализа позволяют производить классификацию многомерных объектов, характеризующихся большим набором признаков. Цель кластерного анализа – формирование групп (классов) объектов, схожих между собой и в то же время отличающихся от объектов других классов. Синонимами слова кластер (cluster – пучок, куст, англ.) служат класс, таксон

Парные расстояния

Distances

Метрические расстояния в признаковом пространстве, используемые в качестве меры сходства объектов

Евклидово расстояние

Euclidian distance

Формула евклидова расстояния между объектами – векторами m-мерного пространства

Порожденная выборка

Множество всех парных расстояний. Число мод в порожденной выборке определяет число классов

Метод одиночной связи (ближнего соседа)

Single linkage (nearest neighbor)

Для присоединения объекта к кластеру используется минимальное расстояние между объектом вне кластера и элементами кластера

Метод полных связей (дальнего соседа)

Complete linkage (furthest neighbor)

Для присоединения объекта к кластеру используется максимальное расстояние между объектом вне кластера и элементами кластера

Метод средней связи

Pair-group average

Для присоединения объекта к кластеру используется среднее расстояние между объектом вне кластера и элементами кластера

Центроидный метод

Pair-group centroid

Для объединения двух кластеров используется расстояние между центрами тяжести кластеров

Метод Варда

Ward’s method

Для оценки расстояний между кластерами используются суммы квадратов отклонений (SS) для любых кластеров, которые могут быть сформированы; объединяются те кластеры, которые дают наименьшее приращение SS. Таким образом формируются кластеры с минимальной внутриклассовой вариацией

Агломеративные иерархические методы кластеризации

Joining (Tree clastering)

Первоначально все объекты рассматриваются как отдельные кластеры. Последовательный процесс объединения предполагает выбор на основании матрицы расстояний двух наиболее близких объектов, которые объединяются в один кластер. Далее к нему присоединяют очередной ближайший объект, либо – два наиболее схожих между собой объекта, не вошедших ни в один кластер, образуют новый кластер. Процесс объединения происходит до достижения некоторой пороговой оценки близости (порогового расстояния)

Дендрограмма

Tree diagram

Дерево объединений – графическое отображение последовательного объединения объектов

Иерархические дивизимные методы кластеризации

Первоначально все объекты считаются представителями одного класса. По определенным правилам из этого класса постепенно выделяются группы схожих объектов. Например, выделяются два наиболее удаленных (несхожих) объекта - эталона, а каждый из оставшихся объектов присоединяется либо к первому, либо ко второму объекту, и образуются два класса. В дальнейшем такое разделение продолжается до достижения заданного порога

Итеративные методы классификации

Разновидность дивизимных методов, в которых классификация производится неоднократно, и результаты итераций сравниваются с предыдущими шагами, до совпадения результатов

Метод k-средних

k-Means clustering

Классификация начинается с выбора k произвольных объектов, которые будут служить центрами кластеров – эталонами. Очередной неклассифицированный объект присоединяется к тому кластеру, с центром которого он наиболее схож. Когда все объекты уже классифицированы, производится повторное их присоединение к образованным классам, причем веса (число вошедших в кластер объектов) продолжают накапливаться. Новое разбиение сравнивается с предыдущим, и при совпадении результатов классификация завершается

Факторный анализ

Factor analysis

Факторный анализ – это совокупность методов, которые на основе реально существующих связей признаков или объектов позволяют выявлять латентные обобщающие характеристики.

Основная задача методов факторного анализа – это сокращение числа переменных (редукция данных) и определение структуры взаимосвязей между переменными (классификация переменных)

Латентные (неявные, обобщенные) факторы

General (secondary) factors

Латентные (неявные) факторы устанавливаются как результат взаимодействия и обобщения элементарных переменных и представляют собой интегрированные характеристики более высокого уровня. Введение обобщенных латентных переменных снижает размерность признакового пространства

Матрица факторного отображения

Матрица преобразования пространства элементарных переменных Xm в пространство латентных факторов Fr

Матрица факторных нагрузок

Factor loadings

Матрица значений обобщенных факторов для каждой единицы наблюдения

Метод главных компонент

По известному набору исходных переменных строится m главных компонент: – обобщенных переменных, образующих ортогональное пространство. В основе метода лежит матричное уравнение , где B – вектор параметров уравнения связи. Метод главных компонент предполагает полное разложение дисперсии по общим факторам. Поэтому выполняется равенство дисперсий , где - матрица ковариаций

Метод главных факторов

В методе главных факторов, в отличие от метода главных компонент, предполагается существование характерного фактора и нераскрываемых специфичностей. Вместо корреляционной матрицы используется редуцированная корреляционная матрица, на главной диагонали которой расположены характеристики общности . Уравнение для определения коэффициентов при общих факторах представляется в виде: , где - характерный фактор. Решение этого уравнения относительно коэффициентов при общих факторах сводится к определению собственных значений и собственных векторов матрицы корреляций из уравнения

Методические рекомендации и задания

по работе в системе STATISTICA

для студентов 5 курса специальности