Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Управление информационными рисками – Т. Ю. Зырянова, А. А. Захаров, Ю. И. Ялышев (2008)

.pdf
Скачиваний:
98
Добавлен:
23.03.2016
Размер:
12.57 Mб
Скачать

4.2.2. Метод анализа временных рядов

Особенность оценивания параметров информационных рисков состоит в том, что зачастую необходимо принятие опережающего решения, то есть решения, направленного, например, на предотвращение угрозы, которая еще не возникла, но вероятность ее реализации существует. Таким образом, необходимо уметь делать заключения о значениях определенных показателей на будущих промежутках времени, имея знания об их значениях в настоящем и прошлом. Получе- ние таких заключений осуществляется методами статистического про-

гнозирования, в частности методами анализа временных рядов.

Понятие временного ряда и цели анализа временных рядов

Временным рядом называется последовательность измерений значений переменной (процесса) за определенный период времени через одинаковые промежутки.

Важным моментом является то, что, в отличие от случайных выборок, наблюдения привязаны ко времени. Моменты времени должны быть упорядочены и располагаться через одинаковые промежутки. Однако понятие времени является условным. Методами временных рядов можно, например, анализировать толщину нити, производя ее измерения последовательно, через равные отрезки длины.

Существуют две основные öåëè анализа временных рядов:

1)определение природы ряда;

2)прогнозирование (предсказание будущих значений временного ряда по настоящим и прошлым значениям).

Обе эти цели требуют, чтобы модель ряда была идентифицирована и, более или менее, формально описана. Как только модель определена,

с ее помощью можно интерпретировать рассматриваемые данные.

Структура временного ряда

Анализ временных рядов предполагает, что данные содержат систематическую составляющую (обычно включающую несколько компонент) и случайный шум (ошибку), который затрудняет выделение систематических компонент ряда.

Таким образом, в общем виде временной ряд можно представить как дискретную функцию времени следующего вида:

,

ãäå t = t1, t2, ..., tn — неслучайные упорядоченные моменты времени, расположенные через равные промежутки;

161

— случайный шум (ошибка), наложенный на сис-

тематическую часть;

f(t) — систематическая составляющая.

Систематическая составляющая может включать в себя одну или несколько из следующих компонент:

1)тренд (генеральная тенденция) — общая систематическая линейная или нелинейная компонента, характеризующая основную тенденцию рассматриваемого процесса или долгосрочные колебания;

2)сезонная компонента — периодически повторяющиеся и на-

ложенные на тренд колебания;

3) систематическая случайная компонента — случайное воздействие.

Следует различать систематическую случайную компоненту временного ряда и случайный шум. Систематическая случайная компонента — это значения, которые всегда присутствуют во временном ряде (потому она и систематическая), но носят случайный, непредсказуемый, ни от чего не зависящий характер, то есть являются слу- чайной величиной. Учет систематической случайной компоненты наиболее важен в анализе временных рядов, так как тренд и сезонность описать достаточно просто, если только удается их выделить. Слу- чайный шум представляет собой погрешность измерений и не является составляющей, характеризующей природу и поведение времен-

íîãî ðÿäà.

Метод анализа тренда

Универсального метода обнаружения тренда во временном ряде не существует. Однако если тренд является монотонным (устойчиво возрастает или убывает), его можно выделить и проанализировать.

Первый метод определения тренда во временном ряде — визуальный. Например, в ряде, приведенном на рис. 4.6 (рис. 4.6–4.8 полу- чены с помощью программного средства статистического анализа данных STATISTICA, а рассмотренный пример приведен в [13]), четко прослеживается возрастающий линейный тренд. Остается только определить угол наклона и сдвиг прямой. Это можно сделать, применяя метод наименьших квадратов.

Если временной ряд содержит значительную погрешность измерения, то для выделения тренда нужно применить сглаживание — способ локального усреднения данных, при котором несистематические компоненты взаимно погашают друг друга.

162

Ðèñ. 4.6. Временной ряд с четко выраженным линейным трендом

Самый простой метод сглаживания — скользящее среднее (СС), при котором каждый член ряда заменяется простым или взвешенным

средним соседних членов.

Простое СС

Пусть наблюдается ряд значений переменной: x(t1), x(t2), …, x(tn). Усредненное (сглаженное) значение в точке x(ti) строится по

формуле:

. (4.4)

Временной интервал, по которому проводится сглаживание, называется окном; значение k ширина окна.

В процессе сглаживания скользящим средним существует опасный момент, который состоит в эффекте запаздывания.

Дело в том, что при ширине окна k = 2 не определено сглаженное значение для x(t1). Действительно, по формуле (4.4):

.

Но наблюдения в точке t0 не существует. В результате тренд, построенный в процессе сглаживания, окажется сдвинутым относительно исходного ряда.

163

Аналогично, при ширине окна k = 3 не определены сглаженные значения для x(t1), x(t2), а при произвольной ширине окна k не определены сглаженные значения для x(t1), x(t2), …, x(tk-1).

Второй тонкий момент состоит в оптимальном определении ширины окна. Так, при k = 1 ряд не сглаживается; если k слишком мало, ряд сглаживается слабо; если k слишком велико, можно получить сильное

запаздывание; если k=n, ряд приводится в среднему значению.

Центрированное СС

В процессе сглаживания центрированным СС каждое значение ряда заменяют средним не по предыдущим членам, а по расположенным справа и слева так, чтобы текущее наблюдение оказалось в сере-

äèíå îêíà.

Взвешенное СС

При сглаживании взвешенным СС усредняемым значениям задаются веса w1, w2, …, wn, и сглаженное значение вычисляется по формуле:

.

Этот метод позволяет приписать большее или меньшее значение

отдельным наблюдениям.

Удаление тренда

Если во временном ряде обнаружен тренд, для анализа других компонент его нужно исключить.

Если тренд линейный, он исключается вычитанием из ряда линейной функции g(t) = at + b.

Если тренд имеет более сложную структуру, он удаляется последовательным взятием первых разностей, то есть следующим преобразованием:

.

Число d, равное количеству повторения процесса взятия первых

разностей, называется порядком разности временного ряда.

Анализ и удаление сезонности

Сезонная компонента временного ряда указывает на повторяющийся с определенным периодом характер ряда.

164

Формально сезонность определяется как корреляционная зависимость между i-òûì è i-k-тым измерениями.

Число k называется сезонным лагом (сдвигом).

Для того чтобы определить во временном ряде сезонную компоненту, строят автокоррелограмму — особый вид графика, на котором по горизонтальной оси откладываются автокорреляции элементов ряда (рис. 4.7). Если во временном ряде присутствует сезонность, автокорреляционная функция (ÀÊÔ) будет периодической — с периодом, равным сезонному лагу.

Ðèñ. 4.7. Автокоррелограмма временного ряда с четко выраженной сезонностью

Более чистую сезонную картину дает частная автокорреляционная функция (×ÀÊÔ). Она аналогична АКФ, но в ней устраняются зависимости между наблюдениями внутри сезонного лага.

После того как наличие сезонной компоненты установлено, ее нужно удалить. Для этого применяют операцию взятия разностей с сезонным лагом. То есть, если сезонный лаг равен k, ряд преобразуют по следующей формуле:

.

165

После удаления тренда и сезонности временной ряд содержит только систематическую случайную компоненту и случайный шум и

становится стационарным.

Анализ стационарных временных рядов. Модель АРСС

Стационарным называется временной ряд, свойства которого не зависят от времени. Поэтому для элементов стационарного ряда являются постоянными следующие характеристики:

1.Математическое ожидание: ;

2.Дисперсия: ;

3.Автокорреляция (коэффициент корреляции между членами ряда):

.

Стационарность ряда можно определить по автокоррелограмме, на которой должно быть видно затухание АКФ (рис. 4.8).

Ðèñ. 4.8. Затухающая автокорреляционная функция стационарного временного ряда

Анализ оставшихся после удаления тренда и сезонности случайных компонент затруднен тем, что их невозможно точно описать с

166

помощью математических функций или итерационных процессов. Однако нам требуется построить прогноз поведения ряда с учетом имеющихся случайных составляющих. То есть необходимо построить некоторую математическую модель, наилучшим образом приближающую временной ряд.

Наиболее универсальной (но за счет универсальности и сложной) является модель ÀÐÑÑ (авторегрессии и скользящего среднего).

Доказано, что любой временной ряд можно с некоторой степенью точности приблизить следующим итерационным процессом:

,

(4.5)

ãäå a1, …, ap, b1, …, bq — коэффициенты модели. Часть модели, представленная процессом:

,

выражает зависимость членов ряда от предыдущих наблюдений (процесс авторегрессии (АР).

Часть модели, представленная процессом:

,

выражает зависимость членов ряда от случайных ошибок при предыдущих измерениях и называется процессом скользящего среднего (ÑÑ).

Таким образом, построив модель АРСС вида (4.5), можно прогнозировать значения наблюдаемой переменной, то есть строить неизвестные xi по известным предыдущим значениям.

Задача состоит только в том, чтобы найти коэффициенты a1, …, ap,

b1, …, bq.

Вначале определяют порядок модели — количество коэффициентов авторегрессии p и количество коэффициентов скользящего среднего q. Для этой цели используют следующие свойства автокорреляционной и частной автокорреляционной функций:

1.При процессе авторегрессии порядка p АКФ плавно затухает, ЧАКФ обрывается на лаге p.

2.При процессе скользящего среднего порядка q АКФ обрывается на лаге q, ЧАКФ плавно затухает.

Чаще всего временные ряды, описывающие реально наблюдаемые процессы, относятся к одному из следующих пяти классов модели АРСС (табл. 4.2).

167

Таблица 4.2

Классы моделей АРСС

После того как порядок модели АРСС определен, коэффициенты a1, …, ap, b1, …, bq находят применением одного из численных методов, например метода наименьших квадратов.

Оценка адекватности прогноза

Для того чтобы показать, что построенная модель временного ряда адекватна и ее можно использовать для построения прогнозов, необходимо провести анализ остатков — разностей между наблюдаемыми значениями ряда и прогнозными значениями. Остатки должны обладать следующими свойствами:

1.Диаграмма остатков не должна содержать закономерностей.

2.Прогноз, построенный на основании полученной модели с отступом от конца ряда на некоторое количество лагов должен быть близок к наблюдаемым значениям.

3.Все значения автокорреляционной функции остатков должны быть близки к нулю.

Итак, анализ временных рядов включает в себя следующие этапы:

1.Графическое представление и описание поведения временного ряда.

2.Сглаживание (удаление низкоили высокочастотных составляющих).

3.Выделение и удаление закономерных (неслучайных) составляющих (тренда и сезонности).

168

4.Исследование случайной составляющей, построение и проверка математической модели для ее описания.

5.Прогнозирование развития изучаемого процесса на основе временного ряда.

4.3.Метод анализа информационных рисков на основе системы нечеткого логического вывода

При разработке и сопровождении систем защиты информации нельзя не учитывать факторы, связанные с деятельностью человека в этих системах. Кроме того, множество факторов, вносящих в итоговое значение риска вклад, о доле которого зачастую невозможно сделать определенное заключение, ведет к сложностям в применении к формированию заключений традиционной логики, но создает условия для применения нечеткого логического моделирования. Перспективным направлением в области анализа информационного риска является разработка систем нечеткого логического вывода на основе теории нечетких множеств и нечеткой логики.

4.3.1. Основы теории нечетких множеств и нечеткой логики

Теория нечетких множеств впервые была предложена профессором Университета Беркли Лотфи Заде. В 1965 г. вышла его статья под названием «Fuzzy sets» («Нечеткие множества»). Концепция нечетких множеств зародилась как «неудовлетворенность математическими методами классической теории систем, которая вынуждала добиваться искусственной точности, неуместной во многих системах реального мира, особенно в так называемых гуманистических системах, включа- ющих людей» [24]. Позднее теория нечетких множеств была развита в работах [11, 23, 25, 26].

В основе теории нечетких множеств лежит построение системы лингвистических (естественно-языковых) правил вида «если…, то…».

Вскоре была доказана теорема о нечеткой аппроксимации, которая утверждает, что любая математическая система может быть аппроксимирована системой, основанной на нечеткой логике. То есть с помощью правил вида «если…, то…» можно сколь угодно точно отразить взаимосвязь входов и выходов системы [6]. Со временем применение методов теории нечетких множеств получило широкое распрос-

169

транение при разработке систем управления технологическими процессами, транспортом, систем медицинской и технической диагностики, финансового менеджмента.

Основным понятием теории является понятие нечеткого множества. Нечеткое множество — это математическая формализация не- четкой информации для построения математических моделей. Эта формализация состоит в том, что элементы, составляющие множество, обладающее общим свойством, могут обладать этим свойством в различной степени, то есть принадлежать множеству с различной степенью.

Пусть U — некоторое универсальное множество, состоящее из объектов u.

Нечетким множеством на универсальном множестве U называется совокупность пар , ãäå u — элемент универсального множества U, — число из диапазона [0,1], отражающее

степень принадлежности элемента u к нечеткому множеству .

Функцией принадлежности нечеткого множества на универсальном множестве U называется функция , которая позволяет вычислить степень принадлежности элемента ê íå-

четкому множеству .

С помощью функции принадлежности нечеткое множество на универсальном множестве , состоящем из конечного числа элементов, представляется следующим образом:

.

Åñëè U — непрерывное множество, то нечеткое множество на U записывается следующим образом:

.

170