Анализ данных отчеты Катков / Analiz_dannykh_Lektsii_4
.pdfАнализ данных!
Данные - это инфа представленная в виде, пригодном для обработки на ЭВМ при возможном участии человека.
Актуальность – свойство данных, находиться в актуальном состоянии, т.е. адекватно отражать состояние объекта в любой момент времени.
Временной ряд данных – наблюдение над некоторым объектом, процессом, системой, характер которых меняется с течением времени, порождая упорядоченную последовательность отсчетов. Х(1),Х(2)… Х(l), где l – время,L – объём выборки (объем ряда данных).
Генеральная совокупность – совокупность всех возможных наблюдений или объектов интересующего типа, кт могли бы быть произведены при данном реальном комплексе условий.
1.Виды данных.
1.1.Аналоговые – у кт и аргумент и сама величина являются непрерывными. Непрерывная величина принимает все возможные значения из данного диапазона (бесконечно разрядные).
1.2.Импульсные – у кт аргумент дискретен, т.е. существует только в заданные моменты времени, а сама величина непрерывна.
y(t)
1.3 1.2
1.3.Квантованные – у кт аргумент непрерывен, а сама величина дискретна по своему значению.
1.4.Цифровые – данные, дискретные и по аргументу и по величине.
1.4
1.5. Комбинированные – могут сочетать в себе все вышеназванные данные.
2.Задача дискретизации аналогово сигнала.
Врезультате дискретизации непрерывная функция х(t) заменяется совокупностью мгновенных значений величины x(l), y(l) и по этим мгновенным значениям необходимо иметь возможность восстановить исходную функцию с заданной точностью. При дискретизации решается вопрос величины шага дискретизации.
∆t=tι-tι-1
Вобщем случае задача дискретизации включает в себя 2 подзадачи: 1. преобразование непрерывного сигнала в дискретный.2. устранение избыточной для потребителей инфы.
3.Способы дискретизации.
1
3.1.Равномерная дискретизация [0,T], ∆t=const – величина шага дискретизации выбирается из наиболее худших условий.
3.2.Адаптивная дискретизация – методы дискретизации, при кт шаг ∆t выбирается из свойств сигнала.
При решении задачи восстановления сигнала по дискретным отсчетам важно, чтобы на интервал дискретизации ∆t разность между истинным значением сигнала и приближенной функцией P(t) была меньше заданной погрешности ε:
׀P(t)-x(t)׀≤ε
В качестве P(t) используются алгебраические многочлены 1 и 0 степени.
4.Теорема Котельникова.
Если функция кусочно-непрерывна, имеет конечное число экстремумов и сверху ограничена частотой F, то она м.б. полностью описана дискретами, взятыми через интервал времени ∆t≤1/2F, где F-максимальная частота в спектре. Ограничения:
Th относится к сигналам с ограниченным спектром. При дискретизации реальных сигналов вместо граничной частоты F берется некоторая Fmax, кт выбирается из некоторых соображений, тогда:
F =Fmax*k
, при 2≤k≤6, где F-граничная частота.
5.Эффект подмены частот.
Выражается в подмене высокочастотных составляющих сигнала фиктивными низкочастотными составляющими.
6.Итоги и практические рекомендации.
Основой инженерно-технической дискретизации аналоговых сигналов является итерационный метод:
1)Исходя из здравого смысла или по опыту решения предыдущих задач выбирается начальное приближение (∆t=0.2Т, где Т – фактическая постоянная времени, характеризующая инерционность объекта).
2)Для выбранных настроек ведется 1 вариант расчета.
3)Первоначальные настройки (шаг дискретизации, шаг квантования) изменяются в сторону увеличения или уменьшения в 2-5 раз. Проводится следующий этап расчета.
4)Проводится анализ. Выбирается шаг дискретизации.
7.Выбросы и причины их возникновения.
Прежде чем проводить анализ, необходимо проверить данные на наличие выбросов.
2
Выбросы - данные, значения кт существенно отличаются. Чаще всего выявление выбросов осуществляется посредством визуального анализа. Выявленные выбросы исключаются из рассмотрения.
Причины возникновения выбросов:
1)Ошибки оператора.
2)Неисправные системы измерения.
3)Аварийный режим работы технологического объекта.
4)Непредставительность взятых для анализа проб.
8.Основные понятия теории вероятности.
Случайная величина (СВ) – величина, принимающая к-л значение, причем заранее неизвестно какое именно.
СВ - непрерывная и дискретная. Для дискретной СВ м.б. перечислены все вероятные её значения. А непрерывная СВ равномерно заполняет некоторый её интервал. Каждое из возможных значений дискретной случайной величины (ДСВ) описывается вероятностью, такой что ΣPi=1, где Р - вероятность.
Если известно каким образом суммарная вероятность распределена между отдельными значениями, то известен её закон распределения (ЗР).
ЗРСВ – это соотношение, устанавливающее связь между возможными значениями СВ.
9.Форма задания СВ.
1 |
способ – |
таблица, используется при малом количестве значений. |
|||||||
Ряд распределения ДСВ: |
|
|
|
|
|||||
|
х |
Х1 |
Х2 |
|
Х3 |
… |
хn |
|
|
|
р |
Р1 |
Р2 |
|
Р3 |
… |
рn |
|
|
2 |
способ – |
графический. |
|
|
|
p1 p2 p3 p4 p5
x1 x2 x3 x4 x5
Для непрерывной СВ не существует ряда распределения, она описывается некоторой непрерывной функцией, кт называется распределение вероятностей.
В интегральной форме
Р(х<Х) |
1 |
Дифференциальная форма предст-я (плотность распределения СВ)
LIM Fpi(x + ∆x) − F (x) = F`(x)
∆Х0 ∆x
∆x Х
3
10.Статистический ряд. Гистограмма.
Для оценки ЗРСВ (в диф.форме) строится стат.ряд, по которому строится гистограмма:
1)определяется диапазон СВ (Xmin и Xmax).
2)Диапазон делится на группы (интервалы)
3)Подсчитывается количество значений Ml, попавших в l-интервал.
4) |
Определяется частота попадания СВ в каждую l-группу. ϕ(l) = |
Ml |
, где L |
|||||||
L |
||||||||||
|
|
|
|
|
n |
|
|
|
|
|
|
– общий объем выборки. => ∑ϕ(l) =1, где n-общее количество групп. |
|||||||||
5) |
Строится таблица вида: |
l=1 |
|
|
|
|
|
|||
|
|
|
|
|
|
|||||
|
|
Xmin/x1 |
X1/x2 |
|
X2/x3 |
… |
Xn/Xmax |
|
|
|
ml |
|
m1 |
m2 |
|
m3 |
… |
Mn |
|
|
|
ϕ l |
|
ϕ 1 |
ϕ 2 |
|
ϕ 3 |
… |
ϕ n |
|
|
|
6) по стат.ряду строится столбиковая диаграмма, кт называется гисто-
|
граммой. |
|
ϕ |
ϕ |
φ |
Xmin x1 x2 x3 Xmax |
Нормальный или закон Гаусса |
Равномерный закон x |
φ |
φ |
|
Закон Пуассона |
x |
Экспотненциальный закон x |
Гистограмма дает предположить, что данный статистический ряд подвержен написанному закону.
11.Практические рекомендации при построении гистограмм.
Количество интервалов разбиения диапазона изменения СВ определяется объемом выборки (рекомендуется брать от 5 до 20). Если данное попало на границу интервала, то в каждый из интервалов записывается по ½.
Пример: |
|
|
|
Xmin=22,Xmax=46 |
|
|||||
9,44,38,28,30,22,2,2,24,45,23,46 |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
|
22/28 |
22/34 |
34/40 |
|
40/46 |
|
|
|
|
|
|
½ ׀׀׀׀ |
½ ׀׀ |
׀ |
|
׀׀׀ |
|
|
|
|
|
|
|
|
|
|
|
|
||||
Ml |
4.5 |
2.5 |
1 |
|
3 |
|
|
|
|
|
φl |
0.41 |
0.23 |
0.09 |
|
0.24 |
|
|
|
|
|
|
|
|
|
|
|
|||||
|
|
|
|
|
4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
12.Статистические характеристики.
1.Выборочная средняя (мат.ожидание) или 1 центральный момент.
Для ДСВ, где n-количество возможных значений при
Свойства выборочного среднего.
1)const мат.ожидания = const (ей самой).
2)Умножение всех значений СВ на const приводит к увеличению среднего значения в это количество раз. M[cx]=cM[x]
3)Среднее значение (мат.ожидание) суммы СВ = сумме мат.ожиданий. M[x+y]=M[x]+M[y]
4)Среднее значение произведения независимых СВ = произведению мат.ожидания этих СВ. M[x*y]=M[x]*M[y].
2.Центрированная СВ – это отклонение СВ от среднего.
3.Дисперсия – это мера рассеяния СВ относительно среднего значения.
Единица измерения дисперсии есть квадрат изменения СВ. Д≥0,Д=0. Также называют вторым центральным моментом при полном рассеивании.
4. СКО (среднеквадратичное отклонение)
Если СВ подчинена закону Пуассона, то выборочная средняя примерно равна дисперсии.
Свойства дисперсии.
1)D(const)=0.
2)D(cx)=c²*D(x).
3)Для независимой СВ D(x+y)=D(x)+D(y).
4)Дисперсия не изменится, если к СВ прибавить const.
Свойства СКО.
1)δ=0, x=const.
2)СКО произведения СВ на const есть произведение модуля const на СКО.
3)Для независимых СВ Х,У СКО суммы этих величин.
δx + y = δx2 +δy2
4) СКО среднего арифметического и независимых СВ с одинаковой дисперсией определяется δ / n .
5
D = δ / n
5)Коэфицент вариации V – мера рассеяния СВ относительно среднего, выраженного в процентах:
6) Коэфицент ассиметрии β – отношение 3 центрального момента к кубу
СКО.
Для симметричного закона распределения β=0. При умножении СВ на const
β(x*c)= β(x).
β>0
β<0
β=0
7) Эксцесс – показывает на сколько по сравнению с нормальным законом распределения рассматриваемый закон более «крутой» или более «сглаженный». Это отношение 4 центрального момента к 4 степени СКО-3.
8)Мода – наиболее вероятное значение СВ. Для нормального закона распре-
деления (унимодальный). В общем случае если закон распределения имеет несколько экстремумов, то он называется полимодальным. Если же экстремумов минимум – антимодальным.
М |
М1 |
М2 |
М |
Унимодальный |
Полимодальный |
Антимодальный |
13.Многовариантное усреднение данных.
Текущее среднее – средняя величина, характеризующая ряд данных при последовательном увеличении его реализации.
Скользящее среднее – это средняя величина, характеризующая участок ряда данных при его скольжении вдоль реализации.
6
Сигнал или отсчет в любой момент времени м.б. представлен в виде моде-
ли:
x(l)=x°(l)+N(l)
x°(l) – полезная составляющая сигнала. N(l) – шумовая составляющая сигнала.
N(l)=N1(l)+N2(l)
N1(l) – непрерывно действующая случайная помеха (импульсная) с плохо идентифицируемыми статическими свойствами.
Рекуррентный алгоритм определения текущего среднего арифметического (ТСА).
(по определению)
Недостаток алгоритма – с ростом l (порядковый номер отсчета) величина в […] делится на все большее и большее число, тогда […] стремится к нулю.
Нерекурентный алгоритм определения арифметического среднего.
На каждом шаге Эта формула м.б. выражена структурной схемой.
x(l) |
|
|
|
|
x∑(l) |
|
|
|
|
|
|
|
Элемент задерж- |
|
∑ |
|
|
z−1 |
||
x |
(l −1) |
|
ки устойчивости |
|||
|
|
на 1 такт |
||||
|
|
|
|
|
Суммарное значение на (l-1)
Схема с положительной обратной связью. Работает на границе устойчивости.
Достоинства – простота.
Недостатки: 1. При суммировании большого количества отсчетов возможно получение многоразрядных чисел вплоть до возникновения ошибки (переполнения памяти, т.е. разрядн. сетки).2. перед операцией суммирования от всех исходных данных отнимается некоторое базовое значение, в качестве которого может выступать средне-интервальная оценка. Далее суммирование проводиться в приращениях.
7
Рекуррентные алгоритмы определения среднего.
1) Без приращения
С приращением:
Применяется для дифференциального объема выборки. Древовидный алгоритм определения среднего.
Желательно чтобы L =2m .
X1 |
|
X2 |
|
X3 |
|
X4 |
|
X5 |
|
X6 |
|
X7 |
|
X8 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
X1,2 |
X3,4 |
X5,6 |
X7,8 |
½ |
½ |
½ |
½ |
X 1,2,3,4 |
|
X 5,6,7,8 |
|
|
|
Σ
½
1-8
8
Если L ≠2m , то |
совокупность чисел дополняется нулями т.о., чтобы общий |
объем выборки стал |
^ |
|
L= 2m |
Далее вычисления выполняются согласно схеме, а полученный результат умножается на поправочный коэфицент.
K = L −LL0 , где L0 – количество добавленных нулей, а L – объем исходной выборки.
Алгоритм определения среднего с разделением отсчетов.
1)Отдельно суммируются отсчеты с четными и нечетными номерами.
2)По каждой выборке определяется среднее и определяется общевыборочное среднее.
3)Сравниваются все 3 полученных значения. Если они существенно отличаются, то шаг дискретизации для данного анализа выбран неверно и среднее значение смещено.
4)Вычисление требуемого СА по формуле:
Xca(l) = xб +δXca(l)
Достоинства: 1. Хорошая эвристичность (инициирование творчества). 2. Выгода по времени и по памяти.
14. Методы определения САС (скользящего арифметического среднего).
1. Исходный оператор САС – оператор – преобразования – действие.
|
1 |
L−1 |
Xcac(l) = |
|
∑X (l −λ) , где λ-сдвиг относительно расчета. L - количест- |
|
||
|
L λ=0 |
во точек, по кт производится осреднение (интервал сглаживания).
Acac(z) = |
1 |
L−1 |
z |
−λ |
|
z |
−λ |
|
|
∑ |
|
, где |
|
- временная задержка численных данных на |
|||
|
|
|
||||||
|
L λ=0 |
|
|
|
|
|
|
|
λ-тактов. z−1- оператор единичной задержки, т.е.: |
||||||||
x(l)z−1 = x(l −1) |
|
|
|
ыа |
|
|
|
|
x(l)z−λ = x(l −λ) x(l)z0 = x(l)
|
|
|
|
|
|
|
|
|
|
z−1 |
|
z−1 |
. . . |
z−1 |
|
|
|
|
|
|
|
|
|
|
|
Σ |
|
1/L |
Xcac |
|
|
|
|
|
|
|
|
||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
9
2. Разностный оператор САС (рекуррентная форма определения САС)
Xcac(l) = Xcac(l −1) + L1 [x(l) − x(l − L)]
Xcac(0) = Xcacб (по определению), где Xcac(l-1) – предшествующее значе-
ние САС, x(l) – вновь поступившее численное данное на l-такте. Xcacб - базовое значение для конкретной выборки. L – интервал сглаживания.
Примечание: Как выбрать интервал сглаживания?
Интервал последовательности Фибоначчи состоит из чисел: 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, … Каждое число формируется как сумма двух предшествующих чисел.
В первом приближение можно выбирать из чисел Фибоначчи.
Acac (Z ) = 1 1−− Z−1 L 1 Z
x(ℓ) |
xcac |
|
1/L |
||
|
||
Z-λ |
Z-1 |
Рассмотрим целый ряд весов, убывающий по экспоненциальному закону:
α +α(1−α) +α(1−α)2 +α(1−α)3 +K+α(1−α)n →1
Тогда экспоненциально взвешенное среднее можно записать:
xl =αxl +α(1−α)xl−1 +α(1−α) |
2 |
xl−2 +α(1−α) |
xl−3 +K+α(1−α) |
n |
xl−n |
|
|||||
~ |
|
|
|
|
|
3 |
|
|
|
||
или |
|
|
|
|
|
|
|
|
|
|
|
~ |
|
|
|
|
|
|
|
2 |
|
n−1 |
xl−n] |
xl =αxl +(1−α)[αxl−1 |
+α(1−α) xl−2 +α(1−α) xl−3 +K+α(1−α) |
||||||||||
Сумма членов в […] есть |
~ |
|
~ |
|
~ |
|
|
|
|||
x l |
− |
1 , т.е. xl |
=αxl + (1−α)xl−1 |
|
|
|
|||||
Скользящее экспоненциальное среднее |
|
|
|
||||||||
1 Aсэс(z) = |
|
1 |
Экспоненциальное среднее первого порядка. |
|
|
|
|||||
|
− βZ −1 |
|
|
|
|||||||
1 |
|
|
|
|
|
|
|
|
|
α
Z-1
xсэс (l) = xсэс (l−1)xсэс (0) = xБ
xсэс (l) = βxсэс (l−1)
+α[x(l) − xсэс (l−1)]
,
+αxсэс (l)
где α, β – настроечные параметры, которые находятся как постоянная величина из условия:
α ≈ L2+1 ; β ≈1−α; 0 ≤α ≤1
В качестве хБ может быть принято среднее арифметическое или среднее медианное по L данным. Чем меньше α тем сильнее сила сглаживания. При α = 1 сглаживания нет.
Такая средняя экспоненциальная является ассиметричной скользящей средней, учитывающая степень старения данных, на основе которых она строится.
10