Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Статистическая обработка экспериментальных данных (110

..pdf
Скачиваний:
17
Добавлен:
15.11.2022
Размер:
1.1 Mб
Скачать

ФЕДЕРАЛЬНОЕ АГЕНТСТВО ПО ОБРАЗОВАНИЮ ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ «ШУЙСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ»

Кафедра математики и методики обучения Кафедра информационных технологий и методики обучения

Статистическая обработка экспериментальных данных

Методическое пособие

Шуя 2009

1

ББК

Печатается по решению редакционно-издательского Совета ГОУ ВПО

УДК

«Шуйский государственный педагогический университет»

М

 

Авторы-составители: Завьялова О.А., Замогильнова Л.В.

Рецензент: к.ф.-м.н., доцент Кашицын А.С.

Статистическая обработка экспериментальных данных. Методическое пособие – Шуя: Изд-во «Весть» ГОУ ВПО «ШГПУ», 2009. – …..с.

Методическое пособие написано с целью оказания помощи студен там в овладении статистическими методами обработки экспериментальных данных. Доступно изложены основные понятия математической статистики, основы корреляционного и регрессионного анализа, элементы теории статистического вывода – проверка статистических гипотез. Изложение теоретического материала сопровождается достаточным количеством практических примеров и расчетов. Показана реализация простейших из методов в табличном процессоре Microsoft Excel for Windows.

Рекомендуется студентам заочного обучения всех специальностей, изучающих элементы теории вероятностей и математической статистики. Пособие может быть использовано и студентами дневного отделения для самостоятельной проработки отдельных разделов математической статистики.

@ ГОУ ВПО «Шуйский государственный педагогический университет», 2009.

2

 

СОДЕРЖАНИЕ

 

 

 

Стр.

1.

Основные понятия математической статистики

4

2.

Числовые характеристики выборки

10

3.

Основы корреляционного и регрессионного анализа

17

4.

Понятие статистической гипотезы

28

5.

Статистические критерии

29

6.

Справочная информация по технологии работы в среде

35

 

MS Excel

 

7.

Задачи для самостоятельного выполнения

44

8.

Литература

46

3

I. Основные понятия математической статистики

1.1. Возникновение и развитие математической статистики

Издавна в каждом государстве соответствующими органами власти собирались сведения о числе жителей по полу, возрасту, занятости в различных сферах труда, наличии различных воинов, вооружения, денежных средств, орудий труда, средств производства и т.д. Все эти и подобные им данные называются статистическими. С развитием государства и международных отношений возникла необходимость анализа статистических данных, их прогнозирование, обработка, оценка достоверности основанных на их анализе выводов и т.п. К решению таких задач стали привлекаться математики. Таким образом, в математике сформировалась новая область — математическая статистика, изучающая общие закономерности статистических данных или явлений и взаимосвязи между ними.

Сфера применения математической статистики распространилась во многие, особенно экспериментальные, науки. Так появились экономическая статистика, медицинская статистика, биологическая статистика, статистическая физика и т.д. Использование персональных компьютеров увеличивает возможность применения математической статистики в различных сферах деятельности человека. Для этого имеются статистические пакеты обработки данных на компьютере Statistica, Stadia, SPSS и др. Остановимся на некоторых основных понятиях математической статистики.

1.2. Статистические данные

В настоящее время под термином "статистические данные" понимают все собранные сведения, которые в дальнейшем подвергаются статистической обработке. В различной литературе их еще называют: переменные, варианты, величины, даты и т.д. Все статистические данные можно разделить на:

качественные, труднодоступные для измерения (имеется, не имеется; больше, меньше; сильно, слабо; красный, черный; мужской, женский и т.д.),

и количественные, которые можно измерить и представить в виде числа общих мер

(2 кг, 3 м, 10 раз, 15 с и т.д.);

точные, величина или качество которых не вызывают сомнений (в группе 6 человек,

5столов, деревянный, металлический, мужской, женский и т.д.),

иприближенные, величина или качество которых вызывает сомнение (все измерения: рост 170 см, вес 56 кг, результат бега на 100 м - 10,3 с и т.д.; близкие понятия

— синий, голубой; мокрый, влажный и т.д.);

определенные (детерминированные), причины появления, не появления или изменения которых известны (2 + 3 = 5, подброшенный вверх камень обязательно будет иметь вертикальную скорость, равную 0 и т.д.),

и случайные, которые могут появляться и не появляться или не все причины изменения которых известны (пойдет дождь или нет, родится девочка или мальчик, команда выиграет или нет, результат в беге на 100 м будет равен 12,2 с, принятая нагрузка окажет положительное влияние на спортивный результат или отрицательное). В

4

большинстве случаев в экспериментальных исследованиях мы имеем дело с приближенными случайными данными.

1.3. Генеральная и выборочные совокупности, статистические признаки

Общее свойство, присущее нескольким статистическим данным, называют их статистическим признаком. Например, рост игроков команды, результат бега на 100 м, принадлежность к виду спорта, частота сердечных сокращений и т.д.

Статистической совокупностью называют несколько статистических данных, объединенных в группу хотя бы одним статистическим признаком. Например, 7.50, 7.30, 7.21, 7.77 — результаты прыжка в длину в метрах у одного спортсмена; 10, 12, 15, 11, 11

— результаты подтягивания на перекладине пяти студентов и т.д. Число данных в статистической совокупности называют ее объемом и обозначают n . Различают следующие совокупности:

бесконечные — n (масса планет Вселенной, число молекул и т.д.); конечные — n - конечное число;

большие — n > 30; малые — n 30;

генеральные — содержащие все данные, обусловленные постановкой задачи; выборочные — части генеральных совокупностей.

Например, пусть рост студентов 17-22 лет в РФ — генеральная совокупность, тогда рост студентов ШГПУ, всех студентов города Шуя или студентов II курса — выборки.

Выборка должна быть представительной (репрезентативной), чтобы по ней можно было судить о генеральной совокупности. Репрезентативность означает, что объекты выборки достаточно хорошо представляют генеральную совокупность.

Предупреждение систематических ошибок выборочного наблюдения достигается в результате применения научно обоснованных способов формирования выборочной совокупности, в зависимости от которых выборка может быть:

собственно-случайной;

механической;

типической;

серийной;

комбинированной.

Втабличном процессоре Microsoft Excel реализована собственно-случайная выборка (выборка формируется на основе генератора случайных чисел). Суть такой выборки

состоит в том, что выборочная совокупность образуется в результате случайного отбора отдельных единиц из генеральной совокупности. Принцип случайности и предупреждает возникновение систематических ошибок выборки.

1.4. Случайные события и величины. Виды представления статистических данных

Эксперимент (испытание) – осуществление какого-либо определенного комплекса условий, который может быть произведен сколь угодно большое число раз.

Результаты каждого испытания характеризуются наступлением (или не наступлением) каких-либо событий или измеренными значениями исследуемых признаков.

5

Отдельные числовые значения исследуемого признака называются вариантами. Если при статистической обработке совокупности безразлично, в какой

последовательности записывать данные, то бывает удобным расположить эти данные (варианты) в соответствии с их значением либо по возрастанию xi ~ 2, 3, 3, 5, 5, 6, 6, 6, 6, 7 (неубывающая совокупность), либо по убыванию xi ~ 7, 6, 6, 6, 6, 5, 5, 3, 3, 2 (невозрастающая совокупность). Этот процесс называется ранжированием. А место каждой варианты в ранжированном ряду называется рангом.

Число m наступлений события А в серии из n испытаний или число испытаний, в которых наблюдалось какое-то значение признака, называется абсолютной частотой этого события (варианты).

Отношение абсолютной частоты m к общему числу испытаний n называется относительной частотой события А (варианты). Очевидно, что 0 mn 1.

Относительную частоту события А (варианты) будем называть вероятностью события А (варианты): Р(А)=m/n. Например, вероятность появления варианты 6 в приведенной выше совокупности значений 4/10, а варианты 7 – 1/10.

Если Р(А)=1, то событие А называется достоверным, если Р(А)=0, то невозможным, если 0<P(A)<1, то событие А называют случайным.

Случайной называется переменная величина, принимающая в зависимости от исхода испытания то или иное числовое значение.

Случайные величины могут быть дискретные и непрерывные. Дискретные случайные величины принимают изолированные значения.

Случайная величина называется непрерывной случайной величиной, если ее

значения принадлежат числовому промежутку.

Чтобы дать полное математическое описание случайной величине, нужно указать множество ее значений и соответствующее случайной величине распределение вероятностей на этом множестве.

Один из основных способов задания распределения случайной величины – статистический ряд распределения.

Статистический ряд распределения представляет собой упорядоченное распределение единиц изучаемой совокупности по определенному варьирующему признаку. Он характеризует структуру исследуемого явления, позволяет судить об однородности совокупности, границах ее изменения, закономерностях развития наблюдаемого объекта. Построение рядов распределения является составной частью сводной обработки статистической информации.

В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные (качественные) и вариационные (количественные) ряды распределения. Вариационные в зависимости от характера вариации признака делятся на дискретные и интервальные ряды распределения.

Процесс группировки в интервальный ряд, как правило, состоит из 4-х шагов.

1 шаг состоит в определении числа интервалов, при этом можно пользоваться следующей таблицей

Таблица 1. Выбор числа интервалов в зависимости от объема выборки

Объем выборки, n

Число интервалов, L

 

 

25-40

5-6

 

 

40-60

6-8

 

 

60-100

7-10

100-200

8-12

Более 200

10-15

2 шаг состоит в определении размаха варьирования (R) результатов: R=Xmax-Xmin

6

3 шаг состоит в нахождении ширины интервала группировки h по формуле h=R/L. В случае получения дробной величины для удобства расчетов эту величину можно округлить, но в большую сторону.

4 шаг состоит в том, что по h строятся интервалы, содержащие выборочные значения.

Удобнее всего ряды распределения анализировать с помощью их графического изображения, позволяющего судить о форме распределения данных. Для изображения дискретных вариационных рядов используется полигон распределения, для изображения интервальных вариационных рядов – гистограммы.

При построении полигона распределения в прямоугольной системе координат по оси абсцисс в одинаковом масштабе откладываются ранжированные значения варьирующего признака, а по оси ординат наносится шкала частот (или частостей; частость – частота, выраженная в долях единицы или в % к итогу). Для построения полигона распределения используется мастер диаграмм Microsoft Excel (режим «График»).

Например, по результатам выполнения контрольной работы можно построить полигон распределения данных

Число оценок

35

 

 

 

30

 

 

 

25

 

 

 

20

 

 

 

 

 

 

Ряд1

15

 

 

 

10

 

 

 

5

 

 

 

0

 

 

 

5

4

3

2

 

 

Оценка

 

Рис.1.1 Полигон распределения

Для построения гистограммы используется мастер диаграмм Microsoft Excel (режим «Гистограмма»). При построении гистограммы на оси абсцисс откладываются значения интервалов, а частоты изображаются прямоугольниками, построенными на соответствующих интервалах.

Например, для результатов в беге на 100 м (в сек) гистограмма имеет вид

Число студентов

30

 

25

 

20

 

15

Ряд1

10

 

5

 

0

 

 

13,5-14,5 14,5-15,5 15,5-16,5 16,5-17,5

 

Интервалы

рис 1.2. Гистограмма распределения данных На практике нередко возникает потребность в преобразовании рядов

распределения в кумулятивные ряды, которые строятся по накопленным частотам. Например,

7

накопленная частость

1,2

 

1

 

0,8

 

0,6

Ряд1

0,4

 

0,2

 

0

 

 

13,5-14,5 14,5-15,5 15,5-16,5 16,5-17,5

 

интервалы

Рис.2. График накопленных частостей (кумулята)

При задании закона распределения непрерывной случайной величины используют понятие функции распределения случайной величины.

Функцией распределения случайной величины Х называется функция F(x),

задающая вероятность того, что случайная величина X принимает значение, меньшее x, то есть F(x)=P(X<x). Второй способ задания непрерывной случайной величины – дифференциальная функция распределения или плотность распределения: f (x) F (x) .

График функции f(x) называется кривой распределения. Кривая распределения, выражающая общую закономерность данного типа распределения, называется теоретической кривой распределения.

В статистике широко используются такие теоретические распределения как нормальное распределение (см.п.2.3), биномиальное, распределение Пуассона и др.

Полигон и кумулята дают начальное представление о функции и плотности распределения случайной величины. При этом полигон можно рассматривать в качестве статистического аналога плотности распределения, а кумуляту – в качестве статистического аналога функции распределения.

Пример 1. В ходе опроса 30 студентов было выявлено, сколько времени ежедневно (час) они затрачивают на подготовку к занятиям. Получены следующие данные

(варианты): 2,3,4,2,4,3,3,3,4,2,2,3,4,3.5,4,3.5,4,2.5,4,3.5,4,4,5,4,3.5,4,3,4,4,2.5

Представить этот ряд данных в виде таблицы абсолютных и относительных частот. Построить полигон относительных частот полученных значений.

Решение.

Абсолютная частота варианты m – число повторений варранты в полученном ряду, например, абсолютная частота числа 3 – это 6. Отношение абсолютной частоты m к

общему числу полученных данных n называется относительной варианты ( 0

m

1 ).

n

 

 

 

 

 

 

 

 

 

 

 

Относительная частота варианты 3 равна 6/30=0,2.

 

 

 

 

 

 

 

 

Требуемые числовые данные представим в виде таблицы

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Затрачиваемое время

2

2.5

3

 

3.5

4

5

 

 

 

 

(час) (Xi)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8

 

 

 

 

 

 

 

 

 

 

 

Количество студентов

4

2

6

4

13

1

(Ki)

 

 

 

 

 

 

 

 

 

 

 

 

 

Относительная частота

0,13

0,07

0,2

0,13

0,44

0,03

 

 

 

 

 

 

 

Накопленная

0,13

0,2

0,4

0,53

0,97

1

относительная частота

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Полигон относительных частот

частота

0,5

 

 

 

 

 

0,4

 

 

 

 

 

 

 

 

 

 

 

Относительная

0,3

 

 

 

 

 

 

 

 

 

 

Ряд1

0,2

 

 

 

 

 

0,1

 

 

 

 

 

0

 

 

 

 

 

 

 

 

 

 

 

 

2

2,5

3

3,5

4

5

 

 

Значения вариант

 

Рис.3. Полигон относительных частот Пример 2. Известны 20 вариант– результаты прыжка в высоту (см). Построить

интервальный ряд распределения данных и гистограмму.

Хi ~170,174,175,177,177,178,178,179,180,182,187,189,189,189,190,191,191,192,193,194.

(далее в тексте для этих данных будут вычислены все основные статистические характеристики)

Решение.

Так как значений 20, возьмем число интервалов равным 4. Размах варьирования R=194-170=24; ширина интервала группировки h=24/4=6.

Интервальный ряд распределения имеет вид

Номер

Границы интервала

Серединные

Частота

Накопленная

интервала

 

значения

 

частота

1.

170-176

173

3

3

2.

176-182

179

6

9

3.

182-188

185

2

11

4.

188-194

191

9

20

Гистограмма имеет вид:

число значений

10

 

 

 

9

 

 

 

8

 

 

 

7

 

 

 

6

 

 

 

5

 

 

Ряд1

4

 

 

 

3

 

 

 

2

 

 

 

1

 

 

 

0

 

 

 

173

179

185

191

 

серединные значения

 

Рис.4

9

2. Числовые характеристики выборки

Вариационные ряды и графики эмпирических распределений дают наглядное представление о том, как варьирует признак в выборке. Но они недостаточны для полной характеристики выборки. Рассмотрим обобщающие числовые характеристики выборки, которые дают количественное представление об эмпирических данных и позволяют сравнивать их между собой.

Такими характеристиками являются –

Характеристики положения;

Характеристики рассеяния.

2.1.Характеристики положения

1.Средним арифметическим называется частное от деления суммы всех значений вариант рассматриваемой совокупности на их число (n):

(1).

Например, для совокупности данных 5, 4, 3, 5, 4, 4, 3, 4 среднее равно

(5+4+3+5+4+4+3+4)/8=4.

Среднее арифметическое обладает следующими свойствами:

а) измеряется в тех же единицах, что и основные варианты;

б) если каждое число совокупности уменьшить (увеличить) на одно и то же число, то ее среднее уменьшится (увеличится) на это же число;

в) если каждое число совокупности увеличить (уменьшить) в несколько раз, то ее среднее увеличится (уменьшится) в такое же число раз;

г) сумма отклонений статистических данных совокупности от их точного среднего всегда равна нулю: .

Для сгруппированных данных х12,…хk среднее Х вычисляется по формуле:

 

 

=

n1* x1 n2* x2 ... nk * xk

(2), где n1, n2,…nk – частоты соответствующих интервалов,

 

Х

 

 

 

 

 

 

 

 

 

n1 n2 ... nk

 

 

 

 

 

 

х1,…хk – серединные значения интервалов.

 

 

 

 

 

 

 

 

 

Пример

1. Вычислить среднее

значение

для данных, представленных

интервальным рядом (данные примера 2,п.1.4)

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Номер

 

 

Границы интервала

Серединные

 

Частота

Накопленная

 

 

 

 

 

интервала

 

 

 

 

значения

 

 

частота

 

 

1.

 

 

170-176

 

173

 

 

3

3

 

 

 

 

 

2.

 

 

176-182

 

179

 

 

6

9

 

 

 

 

 

3.

 

 

182-188

 

185

 

 

2

11

 

 

 

 

 

4.

 

 

188-194

 

191

 

 

9

20

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Решение.

Х =(3*173+6*179+2*185+9*191)/20=184,1

 

 

 

 

10

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]