Добавил:

mihail1000 Опубликованный материал нарушает ваши авторские права? Сообщите нам.

Вуз:

Воронежский государственный технический университет

Предмет:

[НЕСОРТИРОВАННОЕ]

Файл:

Методическое пособие 400

.pdf

Скачиваний:

Добавлен:

30.04.2022

Размер:

1.18 Mб

Скачать

☆

1 / 101 2 3 4 5 6 7 8 9 10 > Следующая >>>

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ

ФГБОУ ВО «Воронежский государственный технический университет»

Ю.В. Минаева

МЕТОДЫ СТАТИСТИЧЕСКОГО И ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ

Утверждено учебно–методическим советом университета в качестве учебного пособия

Воронеж 2017

УДК 681.3.(075.8)

ББК 22.172 я 7 М613

Минаева Ю.В. Методы статистического и интеллектуального анализа данных: учеб. пособие / Ю.В. Минаева. – Воронеж: ФГБОУ ВО «Воронежский государственный технический университет», 2017. 90 с.

В учебном пособии рассматриваются теоретические сведения о классических статистических методах анализа данных (корреляционный, регрессионный, дисперсионный и др. виды анализа) и о современных методах интеллектуальной обработки накопленной информации, используемых для получения новых полезных знаний (OLAP–анализ и Data Mining).

Издание соответствует требованиям Федерального государственного образовательного стандарта высшего образования по направлению 09.03.01 «Информатика и вычислительная техника» (направленность «Системы автоматизированного проектирования»), дисциплине «Методы обработки данных».

Ил. 18. Табл. 12. Библиогр.: 11 назв.

Рецензенты: кафедра программирования и информационных технологий

Воронежского государственного университета (зав. кафедрой, канд. физ.–мат. наук, доц. Н.А. Тюкачев); канд. техн. наук, доц. Ю.В. Литвиненко

©Минаева Ю.В., 2017

©ФГБОУ ВО «Воронежский государственный технический университет», 2017

ВВЕДЕНИЕ

С развитием науки и техники все более актуальной становится задача обработки накопленной информации с целью получения новых знаний. Для решения этой задачи к настоящему времени разработано большое количество методов, относящихся как к классической теории статистики, так и к современному популярному направлению интеллектуальной обработки многомерных данных.

Методы математической статистики (корреляционный, регрессионный, дисперсионный и др. виды анализа) позволяют специалистам–аналитикам выявлять закономерности и делать обоснованные выводы и прогнозы и оценивать вероятности их выполнения. Развивающиеся в настоящее время методы обработки многомерных данных, такие как OLAP–анализ и Data Mining, предполагают активное использование средств искусственного интеллекта для получения новых полезных знаний, скрытых в больших объемах накопленной информации.

В современных условиях функционирование практически любого предприятия немыслимо без процессов сбора и хранения данных, поэтому методы анализа информации являются общеупотребительным инструментом, используемым в плановых, аналитических и маркетинговых отделах производственных и торговых предприятий, банков и страховых компаний, правительственных и медицинских учреждений.

Учебное пособие содержит теоретические сведения о типовых задачах анализа информации и методах их решения. Для удобства изучения все рассматриваемых методы обработки данных объединены в следующие группы: методы описательной статистики, методы анализа статистических связей, методы классификации и редукции данных, технологии многомерного анализа данных.

1. ОБРАБОТКА ДАННЫХ С ПОМОЩЬЮ МЕТОДОВ ОПИСАТЕЛЬНОЙ СТАТИСТИКИ

1.1. Основные понятия и задачи математической статистики

При исследовании различных технических и экономических процессов часто приходится сталкиваться с событиями, имеющими случайную природу. Как известно, для описания случайных величин с заданными вероятностными характеристиками (например, законом распределения, математическим ожиданием и дисперсией) эффективно используется аппарат теории вероятности, однако, если статистические характеристики исследуемого объекта неизвестны, а есть только результаты наблюдений над ним, то для их обработки используются методы математической статистики.

Математическая статистика – наука, изучающая методы исследования закономерностей в массовых случайных явлениях и процессах по данным, полученным из конечного числа наблюдений за ними.

Основными задачами математической статистики являются:

–оценка неизвестных характеристик случайной

величины;

–проверка статистических гипотез, т.е. предположений

ораспределении вероятностей наблюдаемой случайной величины;

–установление формы и степени связи между случайными величинами.

Приведем основные определения, необходимые для дальнейшего изучения методов обработки данных наблюдений за исследуемым объектом.

В зависимости от характера принимаемых значений случайная величина может быть дискретной, т.е. принимать

только значения из определенного набора, или непрерывной, т.е. принимать любые значения.

Генеральная совокупность – все множество возможных значений исследуемой случайной величины X.

Случайная выборка из генеральной совокупности X

– совокупность случайных величин x1, x2 ,..., xn , полученных

в результате n наблюдений за случайной величиной X, при этом число n – объем случайной выборки.

Целью изучения любой выборки является получение информации о генеральной совокупности, поэтому выборка должна быть репрезентативной (представительной), т.е.

правильно отражать пропорции генеральной совокупности. Это достигается с помощью выполнения следующих требований:

–каждый элемент xi , i 1,...,n , выбирается случайно и независимо от других;

–все элементы xi имеют одинаковую вероятность

попасть в случайную выборку;

– объем выборки n должен быть настолько велик, чтобы позволять решать задачу с требуемой точностью.

Характеристики случайных величин, полученные по генеральной совокупности, называются теоретическими (генеральными); характеристики, полученные по выборке из генеральной совокупности – эмпирическими (выборочными)

Статистические показатели, характеризующие случайную выборку, могут быть абсолютными и относительными.

Абсолютные показатели представляют собой суммарные значения тех или иных признаков, вычисленных по выборке (или генеральной совокупности) в целом или по ее части.

Относительные показатели определяются как отношение одного абсолютного показателя к другому.

Исследование случайных величин с помощью методов математической статистики проводится в три этапа:

–статистическое наблюдение – включает в себя сбор первичной статистической информации;

–обработка первичной информации;

–анализ первичной информации и интерпретация полученных результатов.

1.2. Методы предварительной обработки результатов наблюдений

Перед тем, как перейти к детальному анализу полученных в результате наблюдений данных, их приводят к одному из следующих видов:

1. Вариационный ряд – элементы выборки располагаются в порядке возрастания (неубывания):

x (1) , x(2) ,..., x(n) ,

где x(1) x (2) ... x (n) , .

Переход от случайной выборки к ее вариационному ряду не приводит к потере информации, поскольку функции распределения остается такой же, однако происходит искажение исходных данных, поскольку элементы упорядоченной выборки уже не являются взаимно независимыми.

Данные, приведенные к вариационному ряду,

называются негруппированными.

2. Статистический ряд – преобразование выборки с повторяющимися элементами в таблицу. Данные, представленные в виде статистического ряда, являются

группированными.

Пусть	выборка	X n	x1, x2 ,..., xn	содержит m
различных элементов z(1) , z(2) ,..., z(m) , каждый из					которых
повторяется,	соответственно,		n1, n2 ,..., nm	раз,	причем
m
ni n .
i 1

Врезультате группировки исходная выборка

преобразуется в таблицу, где z(1)			z(2)	... z(m) (табл. 1).
					Таблица 1

	z(1)	z (2)	…		z(m)
	n1	n2	…		nm

Числа ni , показывающие, сколько раз элемент z(i) встречается в выборке, называются частотами значения z(i) , а

величины	i ni n	– относительными			частотами.
Накопленной	частотой	nнак	называется число		элементов
		i
выборки, меньших значения z			(i) , отношение	нак	нак	n –
выборки, меньших значения z			(i) , отношение	i	ni	n –

относительной накопленной частотой.

Статистический ряд, как правило, применяется для группировки небольших выборок с дискретными элементами. Для выборок большого объема из непрерывных генеральных совокупностей используется интервальный статистический ряд. В этом случае область задания выборки X разбивается на m интервалов, а числа ni указывают количество элементов

выборки, попавших в i–й интервал.

Число интервалов m может быть задано природой исследуемого явления, условиями проведения наблюдений или определяться по формуле Старджеса:

m log 2 n 1.

При подсчете частот ni для однозначности считают, что

каждый интервал включает свою левую границу и не включает правую, за исключением последнего интервала, включающего и левую, и правую границы.

Пример. При тестировании СУБД проводились измерения времени выполнения запросов к базе данных. Получилась следующая выборка объемом n 20 элементов:

2.92					6.28		3.12				5.46	5.02		3.54			4.64		3.54		5.30			4.08
4.08					4.52		4.64				5.02	3.12		5.02			4.08		2.92		5.30			6.28
			Вариационный ряд для данной выборки имеет вид:
2.92					2.92		3.12				3.12	3.54		3.54			4.08		4.08		4.08			4.52
4.64					4.64		5.02				5.02	5.02		5.30			5.30		5.46		6.28			6.28
			Сформируем статистический ряд для выборки (табл. 2).
																							Таблица 2

		z(i)				2.92		3.12			3.54	4.08	4.52			4.64		5.02		5.30	5.46			6.28
		ni				2		2			2	3		1		2		3		2		1		2
			Далее построим интервальный статистический ряд. Для
наглядности число интервалов примем m																			6 .
			Определим длину интервала:
						L				xmax xmin				6.28			2.92		0.56.
						L					m				6				0.56.
											m				6
где xmax						и xmin – максимальный и минимальный элементы
выборки, соответственно.
			С учетом значения L определим границы интервалов
Li , найдем их середины													z(i)			и	вычислим				для			каждого
интервала частотные характеристики (табл. 3).
																							Таблица 3

	Li			[2.92, 3.48)					[3.48, 4.04)			[4.04, 4.60)			[4.60, 5.16)				[5.16, 5.72)				[5.72, 6.28]
				[2.92, 3.48)					[3.48, 4.04)			[4.04, 4.60)			[4.60, 5.16)				[5.16, 5.72)				[5.72, 6.28]

	z(i)				3.20				3.76			4.32			4.88				5.44					6.00
	ni				4						2	4			5				3					2
		i			0.2				0.1			0.2			0.25				0.15					0.1
		i
	нак
	ni				4						6	10			15				18					20
					4						6	10			15				18					20

	нак				0.2				0.3			0.5			0.75				0.90					1.00
	i				0.2				0.3			0.5			0.75				0.90					1.00
	i

1.3. Графическое		изображение	статистических
данных
Для	визуализации	статистической		информации

используются следующие виды графиков:

1. Полигон частот представляет собой ломаную линию, вершинами которой являются точки с координатами (xi , i ) , и

применяется, в основном, для наглядного изображения выборки из дискретной генеральной совокупности.

	2.	Гистограмма – диаграмма, состоящая из
прямоугольников с шириной, равной интервалу L, и высотой
ni ,	применяется		для	визуализации	интервального
статистического ряда.
	3.	Кривая накопленных частот (кумулятивная кривая)
				нак
– ломаная линия с вершинами в точках (xi , i					) .

Пример. Построим графики для выборки из табл. 3 (рис.

1–3).

Рис. 1. Полигон частот для случайной выборки

Рис. 2. Гистограмма частот для случайной выборки

Рис. 3. Кривая накопленных частот для случайной выборки

1 / 101 2 3 4 5 6 7 8 9 10 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
30.04.20221.17 Mб80Методическое пособие 399.pdf
#
30.04.2022350.21 Кб11Методическое пособие 4.doc
#
30.04.2022169.8 Кб2Методическое пособие 4.pdf
#
30.04.20221.07 Mб4Методическое пособие 40.doc
#
30.04.2022291.56 Кб4Методическое пособие 40.pdf
#
30.04.20221.18 Mб2Методическое пособие 400.pdf
#
30.04.20221.18 Mб5Методическое пособие 401.pdf
#
30.04.20221.18 Mб2Методическое пособие 402.pdf
#
30.04.20221.18 Mб2Методическое пособие 403.pdf
#
30.04.20221.2 Mб2Методическое пособие 404.pdf
#
30.04.20221.2 Mб36Методическое пособие 405.pdf