Добавил:

Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Сибирский Государственный Индустриальный Университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Анализ данных отчеты Катков / Analiz_dannykh_Lektsii_4

.pdf

Скачиваний:

Добавлен:

27.05.2015

Размер:

918.96 Кб

Скачать

☆

1 / 31 2 3 > Следующая >>>

Анализ данных!

Данные - это инфа представленная в виде, пригодном для обработки на ЭВМ при возможном участии человека.

Актуальность – свойство данных, находиться в актуальном состоянии, т.е. адекватно отражать состояние объекта в любой момент времени.

Временной ряд данных – наблюдение над некоторым объектом, процессом, системой, характер которых меняется с течением времени, порождая упорядоченную последовательность отсчетов. Х(1),Х(2)… Х(l), где l – время,L – объём выборки (объем ряда данных).

Генеральная совокупность – совокупность всех возможных наблюдений или объектов интересующего типа, кт могли бы быть произведены при данном реальном комплексе условий.

1.Виды данных.

1.1.Аналоговые – у кт и аргумент и сама величина являются непрерывными. Непрерывная величина принимает все возможные значения из данного диапазона (бесконечно разрядные).

1.2.Импульсные – у кт аргумент дискретен, т.е. существует только в заданные моменты времени, а сама величина непрерывна.

y(t)

1.3 1.2

1.3.Квантованные – у кт аргумент непрерывен, а сама величина дискретна по своему значению.

1.4.Цифровые – данные, дискретные и по аргументу и по величине.

1.4

1.5. Комбинированные – могут сочетать в себе все вышеназванные данные.

2.Задача дискретизации аналогово сигнала.

Врезультате дискретизации непрерывная функция х(t) заменяется совокупностью мгновенных значений величины x(l), y(l) и по этим мгновенным значениям необходимо иметь возможность восстановить исходную функцию с заданной точностью. При дискретизации решается вопрос величины шага дискретизации.

∆t=tι-tι-1

Вобщем случае задача дискретизации включает в себя 2 подзадачи: 1. преобразование непрерывного сигнала в дискретный.2. устранение избыточной для потребителей инфы.

3.Способы дискретизации.

3.1.Равномерная дискретизация [0,T], ∆t=const – величина шага дискретизации выбирается из наиболее худших условий.

3.2.Адаптивная дискретизация – методы дискретизации, при кт шаг ∆t выбирается из свойств сигнала.

При решении задачи восстановления сигнала по дискретным отсчетам важно, чтобы на интервал дискретизации ∆t разность между истинным значением сигнала и приближенной функцией P(t) была меньше заданной погрешности ε:

׀P(t)-x(t)׀≤ε

В качестве P(t) используются алгебраические многочлены 1 и 0 степени.

4.Теорема Котельникова.

Если функция кусочно-непрерывна, имеет конечное число экстремумов и сверху ограничена частотой F, то она м.б. полностью описана дискретами, взятыми через интервал времени ∆t≤1/2F, где F-максимальная частота в спектре. Ограничения:

Th относится к сигналам с ограниченным спектром. При дискретизации реальных сигналов вместо граничной частоты F берется некоторая Fmax, кт выбирается из некоторых соображений, тогда:

F =Fmax*k

, при 2≤k≤6, где F-граничная частота.

5.Эффект подмены частот.

Выражается в подмене высокочастотных составляющих сигнала фиктивными низкочастотными составляющими.

6.Итоги и практические рекомендации.

Основой инженерно-технической дискретизации аналоговых сигналов является итерационный метод:

1)Исходя из здравого смысла или по опыту решения предыдущих задач выбирается начальное приближение (∆t=0.2Т, где Т – фактическая постоянная времени, характеризующая инерционность объекта).

2)Для выбранных настроек ведется 1 вариант расчета.

3)Первоначальные настройки (шаг дискретизации, шаг квантования) изменяются в сторону увеличения или уменьшения в 2-5 раз. Проводится следующий этап расчета.

4)Проводится анализ. Выбирается шаг дискретизации.

7.Выбросы и причины их возникновения.

Прежде чем проводить анализ, необходимо проверить данные на наличие выбросов.

Выбросы - данные, значения кт существенно отличаются. Чаще всего выявление выбросов осуществляется посредством визуального анализа. Выявленные выбросы исключаются из рассмотрения.

Причины возникновения выбросов:

1)Ошибки оператора.

2)Неисправные системы измерения.

3)Аварийный режим работы технологического объекта.

4)Непредставительность взятых для анализа проб.

8.Основные понятия теории вероятности.

Случайная величина (СВ) – величина, принимающая к-л значение, причем заранее неизвестно какое именно.

СВ - непрерывная и дискретная. Для дискретной СВ м.б. перечислены все вероятные её значения. А непрерывная СВ равномерно заполняет некоторый её интервал. Каждое из возможных значений дискретной случайной величины (ДСВ) описывается вероятностью, такой что ΣPi=1, где Р - вероятность.

Если известно каким образом суммарная вероятность распределена между отдельными значениями, то известен её закон распределения (ЗР).

ЗРСВ – это соотношение, устанавливающее связь между возможными значениями СВ.

9.Форма задания СВ.


1	способ –		таблица, используется при малом количестве значений.
Ряд распределения ДСВ:
	х	Х1		Х2	Х3	…	хn
	р	Р1		Р2	Р3	…	рn
2	способ –		графический.

p1 p2 p3 p4 p5

x1 x2 x3 x4 x5

Для непрерывной СВ не существует ряда распределения, она описывается некоторой непрерывной функцией, кт называется распределение вероятностей.

В интегральной форме

Р(х<Х)

Дифференциальная форма предст-я (плотность распределения СВ)

LIM Fpi(x + ∆x) − F (x) = F`(x)

∆Х0 ∆x

∆x Х

10.Статистический ряд. Гистограмма.

Для оценки ЗРСВ (в диф.форме) строится стат.ряд, по которому строится гистограмма:

1)определяется диапазон СВ (Xmin и Xmax).

2)Диапазон делится на группы (интервалы)

3)Подсчитывается количество значений Ml, попавших в l-интервал.

4)	Определяется частота попадания СВ в каждую l-группу. ϕ(l) =						Ml	, где L
4)	Определяется частота попадания СВ в каждую l-группу. ϕ(l) =						L	, где L
				n
	– общий объем выборки. => ∑ϕ(l) =1, где n-общее количество групп.
5)	Строится таблица вида:			l=1
5)	Строится таблица вида:
		Xmin/x1	X1/x2	X2/x3	…	Xn/Xmax
ml		m1	m2	m3	…	Mn
ϕ l		ϕ 1	ϕ 2	ϕ 3	…	ϕ n

6) по стат.ряду строится столбиковая диаграмма, кт называется гисто-

	граммой.
ϕ	ϕ	φ

Xmin x1 x2 x3 Xmax	Нормальный или закон Гаусса	Равномерный закон x
φ	φ

Закон Пуассона

Экспотненциальный закон x

Гистограмма дает предположить, что данный статистический ряд подвержен написанному закону.

11.Практические рекомендации при построении гистограмм.

Количество интервалов разбиения диапазона изменения СВ определяется объемом выборки (рекомендуется брать от 5 до 20). Если данное попало на границу интервала, то в каждый из интервалов записывается по ½.

Пример:				Xmin=22,Xmax=46
9,44,38,28,30,22,2,2,24,45,23,46				Xmin=22,Xmax=46

	22/28	22/34	34/40	40/46
	½ ׀׀׀׀	½ ׀׀	׀	׀׀׀
	½ ׀׀׀׀	½ ׀׀	׀	׀׀׀
Ml	4.5	2.5	1	3
φl	0.41	0.23	0.09	0.24
φl	0.41	0.23	0.09	0.24
				4
				4

12.Статистические характеристики.

1.Выборочная средняя (мат.ожидание) или 1 центральный момент.

Для ДСВ, где n-количество возможных значений при

Свойства выборочного среднего.

1)const мат.ожидания = const (ей самой).

2)Умножение всех значений СВ на const приводит к увеличению среднего значения в это количество раз. M[cx]=cM[x]

3)Среднее значение (мат.ожидание) суммы СВ = сумме мат.ожиданий. M[x+y]=M[x]+M[y]

4)Среднее значение произведения независимых СВ = произведению мат.ожидания этих СВ. M[x*y]=M[x]*M[y].

2.Центрированная СВ – это отклонение СВ от среднего.

3.Дисперсия – это мера рассеяния СВ относительно среднего значения.

Единица измерения дисперсии есть квадрат изменения СВ. Д≥0,Д=0. Также называют вторым центральным моментом при полном рассеивании.

4. СКО (среднеквадратичное отклонение)

Если СВ подчинена закону Пуассона, то выборочная средняя примерно равна дисперсии.

Свойства дисперсии.

1)D(const)=0.

2)D(cx)=c²*D(x).

3)Для независимой СВ D(x+y)=D(x)+D(y).

4)Дисперсия не изменится, если к СВ прибавить const.

Свойства СКО.

1)δ=0, x=const.

2)СКО произведения СВ на const есть произведение модуля const на СКО.

3)Для независимых СВ Х,У СКО суммы этих величин.

δx + y = δx2 +δy2

4) СКО среднего арифметического и независимых СВ с одинаковой дисперсией определяется δ / n .

D = δ / n

5)Коэфицент вариации V – мера рассеяния СВ относительно среднего, выраженного в процентах:

6) Коэфицент ассиметрии β – отношение 3 центрального момента к кубу

СКО.

Для симметричного закона распределения β=0. При умножении СВ на const

β(x*c)= β(x).

β>0

β<0

β=0

7) Эксцесс – показывает на сколько по сравнению с нормальным законом распределения рассматриваемый закон более «крутой» или более «сглаженный». Это отношение 4 центрального момента к 4 степени СКО-3.

8)Мода – наиболее вероятное значение СВ. Для нормального закона распре-

деления (унимодальный). В общем случае если закон распределения имеет несколько экстремумов, то он называется полимодальным. Если же экстремумов минимум – антимодальным.

М	М1	М2	М
Унимодальный	Полимодальный		Антимодальный

13.Многовариантное усреднение данных.

Текущее среднее – средняя величина, характеризующая ряд данных при последовательном увеличении его реализации.

Скользящее среднее – это средняя величина, характеризующая участок ряда данных при его скольжении вдоль реализации.

Сигнал или отсчет в любой момент времени м.б. представлен в виде моде-

ли:

x(l)=x°(l)+N(l)

x°(l) – полезная составляющая сигнала. N(l) – шумовая составляющая сигнала.

N(l)=N1(l)+N2(l)

N1(l) – непрерывно действующая случайная помеха (импульсная) с плохо идентифицируемыми статическими свойствами.

Рекуррентный алгоритм определения текущего среднего арифметического (ТСА).

(по определению)

Недостаток алгоритма – с ростом l (порядковый номер отсчета) величина в […] делится на все большее и большее число, тогда […] стремится к нулю.

Нерекурентный алгоритм определения арифметического среднего.

На каждом шаге Эта формула м.б. выражена структурной схемой.

x(l)				x∑(l)
				Элемент задерж-
	∑		z−1	Элемент задерж-
x	∑	(l −1)		ки устойчивости
x		(l −1)		на 1 такт
				на 1 такт

Суммарное значение на (l-1)

Схема с положительной обратной связью. Работает на границе устойчивости.

Достоинства – простота.

Недостатки: 1. При суммировании большого количества отсчетов возможно получение многоразрядных чисел вплоть до возникновения ошибки (переполнения памяти, т.е. разрядн. сетки).2. перед операцией суммирования от всех исходных данных отнимается некоторое базовое значение, в качестве которого может выступать средне-интервальная оценка. Далее суммирование проводиться в приращениях.

Рекуррентные алгоритмы определения среднего.

1) Без приращения

С приращением:

Применяется для дифференциального объема выборки. Древовидный алгоритм определения среднего.

Желательно чтобы L =2m .

X1,2

X3,4

X5,6

X7,8

X 1,2,3,4		X 5,6,7,8

1-8

Если L ≠2m , то	совокупность чисел дополняется нулями т.о., чтобы общий
объем выборки стал	^
	L= 2m

Далее вычисления выполняются согласно схеме, а полученный результат умножается на поправочный коэфицент.

K = L −LL0 , где L0 – количество добавленных нулей, а L – объем исходной выборки.

Алгоритм определения среднего с разделением отсчетов.

1)Отдельно суммируются отсчеты с четными и нечетными номерами.

2)По каждой выборке определяется среднее и определяется общевыборочное среднее.

3)Сравниваются все 3 полученных значения. Если они существенно отличаются, то шаг дискретизации для данного анализа выбран неверно и среднее значение смещено.

4)Вычисление требуемого СА по формуле:

Xca(l) = xб +δXca(l)

Достоинства: 1. Хорошая эвристичность (инициирование творчества). 2. Выгода по времени и по памяти.

14. Методы определения САС (скользящего арифметического среднего).

1. Исходный оператор САС – оператор – преобразования – действие.

	1	L−1
Xcac(l) =		∑X (l −λ) , где λ-сдвиг относительно расчета. L - количест-

	L λ=0

во точек, по кт производится осреднение (интервал сглаживания).

Acac(z) =	1	L−1	z	−λ		z	−λ
		∑			, где			- временная задержка численных данных на
		∑			, где			- временная задержка численных данных на
	L λ=0
λ-тактов. z−1- оператор единичной задержки, т.е.:
x(l)z−1 = x(l −1)				ыа

x(l)z−λ = x(l −λ) x(l)z0 = x(l)


z−1	z−1	. . .	z−1
				Σ	1/L	Xcac
				Σ

2. Разностный оператор САС (рекуррентная форма определения САС)

Xcac(l) = Xcac(l −1) + L1 [x(l) − x(l − L)]

Xcac(0) = Xcacб (по определению), где Xcac(l-1) – предшествующее значе-

ние САС, x(l) – вновь поступившее численное данное на l-такте. Xcacб - базовое значение для конкретной выборки. L – интервал сглаживания.

Примечание: Как выбрать интервал сглаживания?

Интервал последовательности Фибоначчи состоит из чисел: 1, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144, … Каждое число формируется как сумма двух предшествующих чисел.

В первом приближение можно выбирать из чисел Фибоначчи.

Acac (Z ) = 1 1−− Z−1 L 1 Z

	x(ℓ)	xcac
	x(ℓ)	1/L
		1/L
	Z-λ	Z-1

Рассмотрим целый ряд весов, убывающий по экспоненциальному закону:

α +α(1−α) +α(1−α)2 +α(1−α)3 +K+α(1−α)n →1

Тогда экспоненциально взвешенное среднее можно записать:

xl =αxl +α(1−α)xl−1 +α(1−α)				2	xl−2 +α(1−α)		xl−3 +K+α(1−α)	n	xl−n
~				2		3		n
или
~							2		n−1	xl−n]
xl =αxl +(1−α)[αxl−1			+α(1−α) xl−2 +α(1−α) xl−3 +K+α(1−α)							xl−n]
Сумма членов в […] есть			~		~		~
Сумма членов в […] есть			x l	−	1 , т.е. xl	=αxl + (1−α)xl−1
Скользящее экспоненциальное среднее
1 Aсэс(z) =	1	Экспоненциальное среднее первого порядка.
1 Aсэс(z) =	− βZ −1	Экспоненциальное среднее первого порядка.
1	− βZ −1

Z-1

xсэс (l) = xсэс (l−1)xсэс (0) = xБ

xсэс (l) = βxсэс (l−1)

+α[x(l) − xсэс (l−1)]

+αxсэс (l)

где α, β – настроечные параметры, которые находятся как постоянная величина из условия:

α ≈ L2+1 ; β ≈1−α; 0 ≤α ≤1

В качестве хБ может быть принято среднее арифметическое или среднее медианное по L данным. Чем меньше α тем сильнее сила сглаживания. При α = 1 сглаживания нет.

Такая средняя экспоненциальная является ассиметричной скользящей средней, учитывающая степень старения данных, на основе которых она строится.

1 / 31 2 3 > Следующая >>>

Соседние файлы в папке Анализ данных отчеты Катков

#
27.05.2015918.96 Кб21Analiz_dannykh_Lektsii_4.pdf
#
27.05.2015319.08 Кб20Prakticheskaya_rabota_2.pdf
#
27.05.2015110.25 Кб23Prakticheskaya_rabota_3.pdf
#
27.05.2015340.23 Кб23Prakticheskaya_rabota_4.pdf
#
27.05.201526.95 Кб39Лаба№1 Катков Д.В.xlsx
#
27.05.201520.94 Кб31Лаба№2 Катков Д.В.xlsx