- •А.С. Березина анализ данных
- •Предисловие
- •Лекция 1. Априорный анализ компонент временного ряда
- •1.1. Понятие временного ряда. Виды временных рядов
- •Производство молока в Кемеровской области
- •Численность работников здравоохранения, перед которыми организация имеет просроченную задолженность по заработной плате работников в Российской Федерации в 2013 году
- •Индекс потребительских цен в Кемеровской области (декабрь к декабрю предыдущего года; в процентах)
- •Потребление сахара (кг) на душу населения в Кемеровской области
- •1.2. Методы оценки однородности исходных данных
- •1.3. Методика выявления и анализа аномальных наблюдений
- •Краткосрочные экономические показатели рф
- •Расчётная таблица примера 1.1.
- •1.4. Абсолютные, относительные и средние показатели в анализе временных рядов
- •ЛЕкция 2. Моделирование тенденции
- •2.1. Проверка гипотезы о существовании тренда
- •Промежуточные расчетные значения кумулятивного т-критерия
- •2.2. Методы выявления тенденции
- •Численность населения на одного врача в Кемеровской области
- •Расчетная таблица метода Фостера-Стюарта
- •2.3. Выбор формы тренда
- •Критерии выбора класса, выравнивающих кривых
- •Лекция 3. Моделирование периодической компоненты
- •3.1. Аддитивные и мультипликативные тренд-сезонные модели Алгоритм построения модели временного ряда, содержащего сезонные колебания:
- •Поквартальные данные по розничному товарообороту компании
- •Расчет коэффициента автокорреляции
- •Коррелограмма временного ряда товарооборота
- •Расчет оценок сезонной компоненты в аддитивной модели
- •Расчет значений сезонной компоненты в аддитивной модели
- •Расчет значений t и ошибок e в аддитивной модели.
- •Расчет оценок сезонной компоненты в мультипликативной модели
- •Расчет значений сезонной компоненты в мультипликативной модели
- •Расчет значений t и ошибок e в мультипликативной модели
- •Лекция 4. Простейшие методы прогнозирования
- •4.1. Метод среднего уровня ряда
- •4.2. Метод среднего абсолютного прироста
- •Расчетная таблица для определения прогнозных значений методом среднего абсолютного прироста
- •4.3. Метод среднего темпа роста
- •4.4. Оценка точности и надежности прогнозов
- •Лекция 5. Методы выбора трендовой модели прогноза
- •5.1. Прогнозирование на основе кривых роста
- •5.2. Прогнозирование на основе экстраполяции тренда
- •Лекция 6. Адаптивные модели прогнозирования
- •6.1. Сущность адаптивных методов
- •6.2. Экспоненциальное сглаживание
- •Индекс потребительских цен Кемеровской области
- •Экспоненциальные средние
- •6.3. Метод гармонических весов
- •Параметры уравнений отдельных фаз движения текущего тренда
- •Лекция 7. Прогнозирование динамических рядов, не имеющих тенденции.
- •Распределение знаков отклонений
- •Расчетная таблица для определения знаков отклонений
- •Распределение знаков отклонений
- •8. Метод экспертных оценок
- •8.1. Методы и модели экспертных оценок
- •Матрица опроса
- •Матрица преобразованных рангов
- •Оценки вкусовых качеств продукта
- •Оценки вкусовых качеств продукта
- •Матрица преобразованных рангов
- •8.2. Методы и модели выбора альтернатив
- •Частные критерии трех операторов
- •Нормализованные критерии
- •Лекция 9. Статистические методы обработки результатов экспертизы
- •9.1. Оценка согласованности мнений экспертов
- •9.2. Обобщение мнений экспертов
- •Список литературы
- •Содержание
- •Анализ данных
- •650992, Г. Кемерово, пр. Кузнецкий, 39
1.3. Методика выявления и анализа аномальных наблюдений
Анализ временных рядов должен также начинаться с выявления и устранения аномальных (нехарактерных) значений уровней ряда. Обычно аномальные значения можно обнаружить визуально, при помощи графического представления временных рядов, но, прежде чем «подправить» обнаруженные таким образом значения ряда, их необходимо подвергнуть дальнейшему количественному и качественному анализу.
Нехарактерные уровни во временном ряду можно подразделить на три группы:
Значения, отражающие объективное развитие процесса, но сильно отличающиеся от общей тенденции, так как они проявляют свои экстремальные воздействия крайне редко. Аномальные значения этой группы не всегда должны исключаться из временного ряда и могут даже оказаться полезными на этапе исследования причинно-следственного механизма развития явления. Наличие нехарактерных пиковых значений для одного и того же момента времени в различных временных рядах свидетельствует, как правило, о причинных связях между соответствующими показателями.
Значения, возникающие вследствие изменений методики расчета. Нехарактерные значения второй группы не должны исключаться из рассмотрения, а приниматься за «повторные» (пороговые), начиная с которых должны быть пересчитаны по новой методике все предыдущие значения временного ряда.
Значения, возникающие вследствие ошибок при измерении показателя, при записи и передаче информации, а также значения, связанные с различными катастрофическими явлениями, не влияющими на дальнейший ход развития явления. Аномальные значения третьей группы должны быть исключены из рассмотрения в любом случае, так как они искажают представление о характере развития явления и могут оказать существенное влияние на выводы, полученные в результате анализа ряда, содержащего такую искаженную информацию.
Выбор того или иного метода выявления и анализа аномальных наблюдений определяется объемом совокупности, характером исследуемых процессов и задач (одномерные и многомерные).
В рядах динамики наибольшее распространение получил метод Ирвина, основанный на определении λ — статистики. При его использовании выявление аномальных наблюдений производится по схеме:
,
где ,.
Если t превышает табличное значение (таблица 1.5), то уровень считается аномальным и такие наблюдения нужно исключить из временного ряда и заменить их расчетными значениями (например, среднее из соседних значений).
Таблица 1.5.
Таблица критических значений критерия Ирвина
Число наблюдений n |
| |
P=0,95 |
P=0,99 | |
2 |
2,8 |
3,7 |
3 |
2,2 |
2,9 |
10 |
1,5 |
2,0 |
20 |
1,3 |
1,8 |
30 |
1,2 |
1,7 |
50 |
1,1 |
1,6 |
100 |
1,0 |
1,5 |
400 |
0,9 |
1,3 |
1000 |
0,8 |
1,2 |
Пример 1.1. Выявить аномальные значения временного ряда краткосрочных экономических показателей РФ (таблица 1.6).
Таблица 1.6.
Краткосрочные экономические показатели рф
Квартал |
Год |
t |
Y(t) |
Квартал |
Год |
t |
Y(t) |
IV |
1994 |
1 |
100 |
I |
1999 |
18 |
116 |
I |
1995 |
2 |
142,77 |
II |
19 |
107,3 | |
II |
3 |
124,92 |
III |
20 |
105,6 | ||
III |
4 |
115,21 |
IV |
21 |
103,9 | ||
IV |
5 |
113,02 |
I |
2000 |
22 |
103,94 | |
I |
1996 |
6 |
110,01 |
II |
23 |
105,4 | |
II |
7 |
105,08 |
III |
24 |
104,2 | ||
III |
8 |
100,8 |
IV |
25 |
105,4 | ||
IV |
9 |
104,57 |
I |
2001 |
26 |
107,1 | |
I |
1997 |
10 |
105,29 |
II |
27 |
105,3 | |
II |
11 |
103,03 |
III |
28 |
101,1 | ||
III |
12 |
100,5 |
IV |
29 |
104,1 | ||
IV |
13 |
101,81 |
I |
2002 |
30 |
105,4 | |
I |
1998 |
14 |
103,03 |
II |
31 |
103,4 | |
II |
15 |
101 |
III |
32 |
101,2 | ||
III |
16 |
143,81 |
IV |
33 |
104,26 | ||
IV |
17 |
123,27 |
I |
2003 |
34 |
105,2 |
Решение. Рассчитаем значенияt (таблица 1.7)
Таблица 1.7.