Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
21
Добавлен:
27.05.2015
Размер:
918.96 Кб
Скачать

Анализ данных!

Данные - это инфа представленная в виде, пригодном для обработки на ЭВМ при возможном участии человека.

Актуальность – свойство данных, находиться в актуальном состоянии, т.е. адекватно отражать состояние объекта в любой момент времени.

Временной ряд данных – наблюдение над некоторым объектом, процессом, системой, характер которых меняется с течением времени, порождая упорядоченную последовательность отсчетов. Х(1),Х(2)… Х(l), где l – время,L – объём выборки (объем ряда данных).

Генеральная совокупность – совокупность всех возможных наблюдений или объектов интересующего типа, кт могли бы быть произведены при данном реальном комплексе условий.

1.Виды данных.

1.1.Аналоговые – у кт и аргумент и сама величина являются непрерывными. Непрерывная величина принимает все возможные значения из данного диапазона (бесконечно разрядные).

1.2.Импульсные – у кт аргумент дискретен, т.е. существует только в заданные моменты времени, а сама величина непрерывна.

y(t)

1.3 1.2

1.3.Квантованные – у кт аргумент непрерывен, а сама величина дискретна по своему значению.

1.4.Цифровые – данные, дискретные и по аргументу и по величине.

1.4

1.5. Комбинированные – могут сочетать в себе все вышеназванные данные.

2.Задача дискретизации аналогово сигнала.

Врезультате дискретизации непрерывная функция х(t) заменяется совокупностью мгновенных значений величины x(l), y(l) и по этим мгновенным значениям необходимо иметь возможность восстановить исходную функцию с заданной точностью. При дискретизации решается вопрос величины шага дискретизации.

∆t=tι-tι-1

Вобщем случае задача дискретизации включает в себя 2 подзадачи: 1. преобразование непрерывного сигнала в дискретный.2. устранение избыточной для потребителей инфы.

3.Способы дискретизации.

1

3.1.Равномерная дискретизация [0,T], ∆t=const – величина шага дискретизации выбирается из наиболее худших условий.

3.2.Адаптивная дискретизация – методы дискретизации, при кт шаг ∆t выбирается из свойств сигнала.

При решении задачи восстановления сигнала по дискретным отсчетам важно, чтобы на интервал дискретизации ∆t разность между истинным значением сигнала и приближенной функцией P(t) была меньше заданной погрешности ε:

׀P(t)-x(t)׀≤ε

В качестве P(t) используются алгебраические многочлены 1 и 0 степени.

4.Теорема Котельникова.

Если функция кусочно-непрерывна, имеет конечное число экстремумов и сверху ограничена частотой F, то она м.б. полностью описана дискретами, взятыми через интервал времени ∆t≤1/2F, где F-максимальная частота в спектре. Ограничения:

Th относится к сигналам с ограниченным спектром. При дискретизации реальных сигналов вместо граничной частоты F берется некоторая Fmax, кт выбирается из некоторых соображений, тогда:

F =Fmax*k

, при 2≤k≤6, где F-граничная частота.

5.Эффект подмены частот.

Выражается в подмене высокочастотных составляющих сигнала фиктивными низкочастотными составляющими.

6.Итоги и практические рекомендации.

Основой инженерно-технической дискретизации аналоговых сигналов является итерационный метод:

1)Исходя из здравого смысла или по опыту решения предыдущих задач выбирается начальное приближение (∆t=0.2Т, где Т – фактическая постоянная времени, характеризующая инерционность объекта).

2)Для выбранных настроек ведется 1 вариант расчета.

3)Первоначальные настройки (шаг дискретизации, шаг квантования) изменяются в сторону увеличения или уменьшения в 2-5 раз. Проводится следующий этап расчета.

4)Проводится анализ. Выбирается шаг дискретизации.

7.Выбросы и причины их возникновения.

Прежде чем проводить анализ, необходимо проверить данные на наличие выбросов.

2

Выбросы - данные, значения кт существенно отличаются. Чаще всего выявление выбросов осуществляется посредством визуального анализа. Выявленные выбросы исключаются из рассмотрения.

Причины возникновения выбросов:

1)Ошибки оператора.

2)Неисправные системы измерения.

3)Аварийный режим работы технологического объекта.

4)Непредставительность взятых для анализа проб.

8.Основные понятия теории вероятности.

Случайная величина (СВ) – величина, принимающая к-л значение, причем заранее неизвестно какое именно.

СВ - непрерывная и дискретная. Для дискретной СВ м.б. перечислены все вероятные её значения. А непрерывная СВ равномерно заполняет некоторый её интервал. Каждое из возможных значений дискретной случайной величины (ДСВ) описывается вероятностью, такой что ΣPi=1, где Р - вероятность.

Если известно каким образом суммарная вероятность распределена между отдельными значениями, то известен её закон распределения (ЗР).

ЗРСВ – это соотношение, устанавливающее связь между возможными значениями СВ.

9.Форма задания СВ.

1

способ

таблица, используется при малом количестве значений.

Ряд распределения ДСВ:

 

 

 

 

 

х

Х1

Х2

 

Х3

хn

 

 

р

Р1

Р2

 

Р3

рn

 

2

способ

графический.

 

 

 

p1 p2 p3 p4 p5

x1 x2 x3 x4 x5

Для непрерывной СВ не существует ряда распределения, она описывается некоторой непрерывной функцией, кт называется распределение вероятностей.

В интегральной форме

Р(х<Х)

1

Дифференциальная форма предст-я (плотность распределения СВ)

LIM Fpi(x + ∆x) F (x) = F`(x)

∆Х0 x

∆x Х

3

10.Статистический ряд. Гистограмма.

Для оценки ЗРСВ (в диф.форме) строится стат.ряд, по которому строится гистограмма:

1)определяется диапазон СВ (Xmin и Xmax).

2)Диапазон делится на группы (интервалы)

3)Подсчитывается количество значений Ml, попавших в l-интервал.

4)

Определяется частота попадания СВ в каждую l-группу. ϕ(l) =

Ml

, где L

L

 

 

 

 

 

n

 

 

 

 

 

 

– общий объем выборки. => ϕ(l) =1, где n-общее количество групп.

5)

Строится таблица вида:

l=1

 

 

 

 

 

 

 

 

 

 

 

 

 

Xmin/x1

X1/x2

 

X2/x3

Xn/Xmax

 

 

 

ml

 

m1

m2

 

m3

Mn

 

 

 

ϕ l

 

ϕ 1

ϕ 2

 

ϕ 3

ϕ n

 

 

 

6) по стат.ряду строится столбиковая диаграмма, кт называется гисто-

 

граммой.

 

ϕ

ϕ

φ

Xmin x1 x2 x3 Xmax

Нормальный или закон Гаусса

Равномерный закон x

φ

φ

 

Закон Пуассона

x

Экспотненциальный закон x

Гистограмма дает предположить, что данный статистический ряд подвержен написанному закону.

11.Практические рекомендации при построении гистограмм.

Количество интервалов разбиения диапазона изменения СВ определяется объемом выборки (рекомендуется брать от 5 до 20). Если данное попало на границу интервала, то в каждый из интервалов записывается по ½.

Пример:

 

 

 

Xmin=22,Xmax=46

 

9,44,38,28,30,22,2,2,24,45,23,46

 

 

 

 

 

 

 

 

 

 

 

 

 

22/28

22/34

34/40

 

40/46

 

 

 

 

 

 

½ ׀׀׀׀

½ ׀׀

׀

 

׀׀׀

 

 

 

 

 

 

 

 

 

 

 

 

Ml

4.5

2.5

1

 

3

 

 

 

 

 

φl

0.41

0.23

0.09

 

0.24

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

12.Статистические характеристики.

1.Выборочная средняя (мат.ожидание) или 1 центральный момент.

Для ДСВ, где n-количество возможных значений при

Свойства выборочного среднего.

1)const мат.ожидания = const (ей самой).

2)Умножение всех значений СВ на const приводит к увеличению среднего значения в это количество раз. M[cx]=cM[x]

3)Среднее значение (мат.ожидание) суммы СВ = сумме мат.ожиданий. M[x+y]=M[x]+M[y]

4)Среднее значение произведения независимых СВ = произведению мат.ожидания этих СВ. M[x*y]=M[x]*M[y].

2.Центрированная СВ – это отклонение СВ от среднего.

3.Дисперсия – это мера рассеяния СВ относительно среднего значения.

Единица измерения дисперсии есть квадрат изменения СВ. Д≥0,Д=0. Также называют вторым центральным моментом при полном рассеивании.

4. СКО (среднеквадратичное отклонение)

Если СВ подчинена закону Пуассона, то выборочная средняя примерно равна дисперсии.

Свойства дисперсии.

1)D(const)=0.

2)D(cx)=c²*D(x).

3)Для независимой СВ D(x+y)=D(x)+D(y).

4)Дисперсия не изменится, если к СВ прибавить const.

Свойства СКО.

1)δ=0, x=const.

2)СКО произведения СВ на const есть произведение модуля const на СКО.

3)Для независимых СВ Х,У СКО суммы этих величин.

δx + y = δx2 +δy2

4) СКО среднего арифметического и независимых СВ с одинаковой дисперсией определяется δ / n .

5

D = δ / n

5)Коэфицент вариации V – мера рассеяния СВ относительно среднего, выраженного в процентах:

6) Коэфицент ассиметрии β – отношение 3 центрального момента к кубу

СКО.

Для симметричного закона распределения β=0. При умножении СВ на const

β(x*c)= β(x).

β>0

β<0

β=0

7) Эксцесс – показывает на сколько по сравнению с нормальным законом распределения рассматриваемый закон более «крутой» или более «сглаженный». Это отношение 4 центрального момента к 4 степени СКО-3.

8)Мода – наиболее вероятное значение СВ. Для нормального закона распре-

деления (унимодальный). В общем случае если закон распределения имеет несколько экстремумов, то он называется полимодальным. Если же экстремумов минимум – антимодальным.

М

М1

М2

М

Унимодальный

Полимодальный

Антимодальный

13.Многовариантное усреднение данных.

Текущее среднее – средняя величина, характеризующая ряд данных при последовательном увеличении его реализации.

Скользящее среднее – это средняя величина, характеризующая участок ряда данных при его скольжении вдоль реализации.

6

Сигнал или отсчет в любой момент времени м.б. представлен в виде моде-

ли:

x(l)=x°(l)+N(l)

x°(l) – полезная составляющая сигнала. N(l) – шумовая составляющая сигнала.

N(l)=N1(l)+N2(l)

N1(l) – непрерывно действующая случайная помеха (импульсная) с плохо идентифицируемыми статическими свойствами.

Рекуррентный алгоритм определения текущего среднего арифметического (ТСА).

(по определению)

Недостаток алгоритма – с ростом l (порядковый номер отсчета) величина в […] делится на все большее и большее число, тогда […] стремится к нулю.

Нерекурентный алгоритм определения арифметического среднего.

На каждом шаге Эта формула м.б. выражена структурной схемой.

x(l)

 

 

 

 

x(l)

 

 

 

 

 

 

Элемент задерж-

 

 

 

z1

x

(l 1)

 

ки устойчивости

 

 

на 1 такт

 

 

 

 

 

Суммарное значение на (l-1)

Схема с положительной обратной связью. Работает на границе устойчивости.

Достоинства – простота.

Недостатки: 1. При суммировании большого количества отсчетов возможно получение многоразрядных чисел вплоть до возникновения ошибки (переполнения памяти, т.е. разрядн. сетки).2. перед операцией суммирования от всех исходных данных отнимается некоторое базовое значение, в качестве которого может выступать средне-интервальная оценка. Далее суммирование проводиться в приращениях.

7

Рекуррентные алгоритмы определения среднего.

1) Без приращения

С приращением:

Применяется для дифференциального объема выборки. Древовидный алгоритм определения среднего.

Желательно чтобы L =2m .

X1

 

X2

 

X3

 

X4

 

X5

 

X6

 

X7

 

X8

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

X1,2

X3,4

X5,6

X7,8

½

½

½

½

X 1,2,3,4

 

X 5,6,7,8

 

 

 

Σ

½

1-8

8

Если L 2m , то

совокупность чисел дополняется нулями т.о., чтобы общий

объем выборки стал

^

 

L= 2m

Далее вычисления выполняются согласно схеме, а полученный результат умножается на поправочный коэфицент.

K = L LL0 , где L0 – количество добавленных нулей, а L – объем исходной выборки.

Алгоритм определения среднего с разделением отсчетов.

1)Отдельно суммируются отсчеты с четными и нечетными номерами.

2)По каждой выборке определяется среднее и определяется общевыборочное среднее.

3)Сравниваются все 3 полученных значения. Если они существенно отличаются, то шаг дискретизации для данного анализа выбран неверно и среднее значение смещено.

4)Вычисление требуемого СА по формуле:

Xca(l) = xб +δXca(l)

Достоинства: 1. Хорошая эвристичность (инициирование творчества). 2. Выгода по времени и по памяти.

14. Методы определения САС (скользящего арифметического среднего).

1. Исходный оператор САС – оператор – преобразования – действие.

 

1

L1

Xcac(l) =

 

X (l λ) , где λ-сдвиг относительно расчета. L - количест-

 

 

L λ=0

во точек, по кт производится осреднение (интервал сглаживания).

Acac(z) =

1

L1

z

λ

 

z

λ

 

 

 

, где

 

- временная задержка численных данных на

 

 

 

 

L λ=0

 

 

 

 

 

 

λ-тактов. z1- оператор единичной задержки, т.е.:

x(l)z1 = x(l 1)

 

 

 

ыа

 

 

 

 

x(l)zλ = x(l λ) x(l)z0 = x(l)

 

 

 

 

 

 

 

 

 

 

z1

 

z1

. . .

z1

 

 

 

 

 

 

 

 

 

 

 

Σ

 

1/L

Xcac

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

9

2. Разностный оператор САС (рекуррентная форма определения САС)

Xcac(l) = Xcac(l 1) + L1 [x(l) x(l L)]

Xcac(0) = Xcacб (по определению), где Xcac(l-1) – предшествующее значе-

ние САС, x(l) – вновь поступившее численное данное на l-такте. Xcacб - базовое значение для конкретной выборки. L – интервал сглаживания.

Примечание: Как выбрать интервал сглаживания?

Интервал последовательности Фибоначчи состоит из чисел: 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, … Каждое число формируется как сумма двух предшествующих чисел.

В первом приближение можно выбирать из чисел Фибоначчи.

Acac (Z ) = 1 1Z1 L 1 Z

x(ℓ)

xcac

1/L

 

Z

Z-1

Рассмотрим целый ряд весов, убывающий по экспоненциальному закону:

α +α(1α) +α(1α)2 +α(1α)3 +K+α(1α)n 1

Тогда экспоненциально взвешенное среднее можно записать:

xl =αxl +α(1α)xl−1 +α(1α)

2

xl−2 +α(1α)

xl−3 +K+α(1α)

n

xl−n

 

~

 

 

 

 

 

3

 

 

 

или

 

 

 

 

 

 

 

 

 

 

~

 

 

 

 

 

 

 

2

 

n1

xl−n]

xl =αxl +(1α)[αxl−1

+α(1α) xl−2 +α(1α) xl−3 +K+α(1α)

Сумма членов в […] есть

~

 

~

 

~

 

 

 

x l

1 , т.е. xl

=αxl + (1α)xl−1

 

 

 

Скользящее экспоненциальное среднее

 

 

 

1 Aсэс(z) =

 

1

Экспоненциальное среднее первого порядка.

 

 

 

 

βZ 1

 

 

 

1

 

 

 

 

 

 

 

 

 

α

Z-1

xсэс (l) = xсэс (l−1)xсэс (0) = xБ

xсэс (l) = βxсэс (l−1)

+α[x(l) xсэс (l−1)]

,

+αxсэс (l)

где α, β – настроечные параметры, которые находятся как постоянная величина из условия:

α L2+1 ; β 1α; 0 α 1

В качестве хБ может быть принято среднее арифметическое или среднее медианное по L данным. Чем меньше α тем сильнее сила сглаживания. При α = 1 сглаживания нет.

Такая средняя экспоненциальная является ассиметричной скользящей средней, учитывающая степень старения данных, на основе которых она строится.

10

Соседние файлы в папке Анализ данных отчеты Катков