Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СТАТИСТИКАъLABORATORN_J_PRAKTIKUM.doc
Скачиваний:
51
Добавлен:
04.03.2016
Размер:
3.6 Mб
Скачать

3.3. Образец выполнения работы

Смысловые значения случайных величин состоят в следующем: Х – производительность труда на одного рабочего (в %); У – выпуск годовой продукции (млн. руб.). Числовые значения величин Х и У приведены в таблице:

Таблица 1

x

y

x

y

x

y

x

y

x

y

5

4

15

12

25

12

15

16

55

16

15

8

5

12

25

8

35

16

45

20

15

12

25

12

65

24

45

20

55

16

15

16

25

4

35

12

35

12

45

20

35

12

25

8

35

12

45

16

55

16

15

12

25

8

35

12

35

12

55

20

35

12

25

4

45

16

45

20

55

20

15

12

25

12

35

12

55

16

55

20

35

16

25

20

45

16

55

16

55

24

4

4

25

8

35

12

45

20

55

20

  1. Исходные данные сгруппируем в виде корреляционной таблицы:

Таблица 2

х

у

5

15

25

35

45

55

65

4

2

-

2

-

-

-

-

4

15

11,8

8

-

1

4

-

-

-

-

5

23

20,92

12

1

4

3

9

-

-

-

17

26,76

30,04

16

-

2

-

2

3

5

-

12

42,5

39,16

20

-

-

1

-

5

4

-

10

47

48,28

24

-

-

-

-

-

1

1

2

60

57,40

3

7

10

11

8

10

1

50

6,67

12,57

9,60

12,73

18,50

18,40

24

6,6

9,1

11,6

14,1

16,1

19,1

21,6

  1. Для предварительной оценки формы связи построим точки с координатами, данными в

табл. 1 или 2: (5;4), (15;8), (15;12), (15;16), (25;4), (25;8), (25;12), (35;12), (35;16), (45;16), (45;20), (65;24), (25;20), (5;12), (55;16), (55;20), (55;24) и (65;24).

Точки группируются около некоторой прямой, поэтому связь между Х и У можно предположительно считать линейной.

Ниже представлены эмпирические линии регрессии усредненных значений Yср по Х и

усредненных значений Хср по Y. Из этих линий следует, что тип зависимости между переменными Х иY- линейный (усредненные точки по Х иYвытятуты по прямой).

  1. Для вычисления параметров регрессионной прямой произведем промежуточные вычисления, т.е. найдем численные значения

Для упрощения расчетов перейдем к условным вариантам.

В корреляционной таблице найдем наибольшую частоту этой частоте соответствуют ее координаты

Запишем корреляционную таблицу в условных вариантах, дополнив ее новыми строками и столбцами:

Таблица 3

u

v

-3

-2

-1

0

1

2

3

-2

2

2

4

-8

16

16

-1

1

4

5

-5

5

6

0

1

4

3

9

17

0

0

0

1

2

2

3

5

12

12

12

9

2

1

5

10

20

40

24

3

1

1

2

6

18

15

3

7

19

11

8

10

1

50

-9

-14

-10

0

8

20

3

27

28

10

0

8

40

9

12

-2

6

0

13

32

9

Правило заполнения таблицы 3.

а) Для вычисления средних значенийизаполним графы,.

В конце каждой строки (столбца) таблицы стоит сумма чисел этой строки (столбца)

б)

в) Вычисляются двойные суммы произведений ==. НапримерПромежуточные вычисления в условных вариантах имеют значения:

=

Тогда - линейный коэффициент корреляции.

коэффициент детерминации.

Значение близко к 1, следовательно, корреляционная связь между случайными величинами Х и У сильная (тесная). Значениеположительно, т.е. связь прямая, увеличению фактораувеличение фактора

5. Подсчитаем возможную ошибку

6. Найдем по таблице критическое значение критерия если степень свободыаЗначение

Тогда доверительный интервал для линейного коэффициента корреляции генеральной совокупности будет иметь вид, т.е.или (0,55; 0,94).

Найденный интервал указывает на то, что при повторении опытов (наблюдений) в 95 случаях из 100 истинное значение коэффициента линейной корреляции генеральной совокупности будет заключено в интервале (0,55; 0,94).

7. Установим значимость коэффициента .

Вычислим

Сравним иТак какт.е. 8,33>2,01, то вычисленное значениеотличается от нуля значимо и, следовательно с вероятностью 0,95 можно утверждать, что изучаемые случайные величины линейно коррелированы.

Найдем коэффициенты линейной регрессии. Для этого перейдем от условных вариантов к исходным:

Тогда

9. Запишем уравнения линейной регрессии ;

или после преобразований

уравнение линейной регрессии У на Х;

илиуравнение линейной регрессии Х на У.

  1. Построим графики эмпирической и теоретической линейной регрессии. Наглядно убедимся в отсутствии грубой ошибки при определении существующей в генеральной совокупности связи между икак линейной корреляционной связи.

Для этого построим точки с координатами (5;6,7), (15;12,6), (25;9,6). (35;12,7), (45;18,5), (55;18,4), (65;24). Ординаты этих точек получены усреднением значений У с использованием таблицы 2. Например ;и т.д. На этот же график наложим прямуюс координатами (5;6,52), (15;9,05), (25;11,52), (35;14,02), (45;16,52), (55;19,02), (65;21,52).

Теоретические линии регрессии хорошо согласуются с эмпирическими линиями регрессии.

  1. Вычисление эмпирической, теоретической линии регрессии, факторной и остаточной дисперсии

х

5

15

25

35

45

55

65

 

у

4

2

-

2

-

-

-

-

4

8

-

1

4

-

-

-

-

5

12

1

4

3

9

-

-

-

17

16

-

2

-

2

3

5

-

12

20

-

-

1

-

5

4

-

10

24

-

-

-

-

-

1

1

2

 

3

7

10

11

8

10

1

50

Yэмпир

6,666667

12,57143

9,6

12,72727

18,5

18,4

24

14,63791

Yтеор

6,52

9,02

11,52

14,02

16,52

19,02

21,52

Fфакт

65,90046

31,56091

9,721361

0,381812

3,542264

19,20272

47,36317

177,6727

Fост

0,021511

12,61264

3,6864

1,671144

3,9204

0,3844

6,1504

28,4469

Установим адекватность (значимость) полного уравнения регрессии по критерию Фишера:

..

уровень значимости;

- число параметров уравнения регрессии;

-число групп по Х.

- степень свободы факторной дисперсии.

- степень свободы остаточной дисперсии.

; (31,22>6,61) -уравнение регрессии значимо.

12. Проведем содержательную интерпретацию результатов корреляционного анализа.

Между производительностью труда и выпуском средней годовой продукцией на рассматриваемом этапе развития производства существует тесная прямая линейная корреляционная связь с с вероятностью 0,95 и доверительным интервалом

(0,55; 0,94) . Это означает, что в исследуемых условиях производства влияние производительности труда на выпуск годовой продукции составляет от 55% до 94%.

Это будет наблюдаться в 95 случаях из 100.

Коэффициент детерминации 0,56 означает, что факторнедостаточно описывает результативный признак

13. Произведем содержательную интерпретацию результатов регрессионного анализа.

  1. Уравнение характеризует то, как в среднем выпуск годовой продукции

зависит от производительности труда. Коэффициент линейной регрессииговорит о том, что если производительность труда увеличить в среднем на 1, то

выпуск годовой продукции возрастает в среднем на 0,25 млн. руб.

Уравнение характеризует то, что в среднем производительность труда зависит от величины выпуска годовой продукции. Если годовую продукцию в среднем необходимо увеличить на 1 млн. руб., то для этого производительность труда необходимо увеличить в среднем на 2,28, т.к.

15. Линейное уравнение регрессии значимо, так как ; (31,22 > 6,61) c вероятностью 0,95.

Контрольные вопросы

  1. Что понимается под корреляционной зависимостью?

  2. В чем заключаются две основные задачи корреляционного анализа?

  3. Дать определение коэффициента линейной корреляции генеральной совокупности.

  4. По какой формуле находится коэффициент линейной корреляции выборочной совокупности?

  5. Какими свойствами обладает выборочный коэффициент линейной корреляции?

  6. Чем определяется направление связи?

  7. Как определить тесноту связи?

  8. Какой будет связь. Если ?

  9. Как определить значимость выборочного коэффициента корреляции?

  10. Как найти критические точки при малых (больших) выборках?

  11. Для чего определяется значимость выборочного коэффициента корреляции?

  12. Как найти ошибку вычисления выборочного коэффициента корреляции?.

  13. Какой вид имеет интервальная оценка коэффициента линейной корреляции генеральной совокупности?

  14. Можно ли с помощью доверительного интервала судить о значимости выборочного коэффициента линейной корреляции?

  15. Как определяется теснота связи при криволинейной корреляционной зависимости?

  16. Чем отличается корреляционный анализ от регрессионного?

  17. Равноправны ли признаки ив регрессионном и в корреляционном анализе?

  18. Как построить эмпирическую линию регрессии?

  19. На основе какого метода находятся неизвестные параметры уравнения линейной регрессии?

  20. Вывести систему нормальных уравнений для нахождения неизвестных параметров уравнения линейной регрессии.

  21. Записать уравнение линейной регрессии наиначерез коэффициент линейной регрессии.

  22. Какой содержательный смысл имеет свободный член уравнения линейной регрессии?

  23. По каким формулам и в каких случаях криволинейная зависимость можно свести к линейной?

  24. Как связаны между собой коэффициент линейной корреляции и коэффициент линейной регрессии?

  25. Записать формулы для вычисления общей, факторной и остаточной дисперсии.

  26. Объяснить суть коэффициента детерминации , индекса корреляции(корреляционного отношения).

  27. Записать формулы для вычисления критерия Фишера и пояснить правило принятия решения о значимости уравнения регрессии.

  28. Сделать общий вывод по выполненной работе (перечислить основные поставленные задачи и полученные результаты).

Лабораторная работа № 4

Однофакторный дисперсионный анализ

Дисперсионным анализом называется статистический метод анализа результатов испытаний, цель которого – оценить влияние одного или нескольких качественных факторов на рассматриваемую величину, признак, процесс Х, на ее изменчивость.. Схема однофакторного дисперсионного анализа рассмотрена ниже на примере исследования влияния различных видов рекламы на прибыль предприятия.

Если разделить виды рекламы на несколько групп (уровней фактора Ф) и через одинаковые интервалы времени измерить полученную прибыль, то результаты можно представить в виде таблицы:

№ измерения

1

2

.

.

Групповая средняя

Число измерений на каждом уровне считаем одинаковым и равным . В последней строке помещены групповые средние для каждого уровня фактора.

Математически дисперсионный анализ основан на проверке статистичской гипотезы о том, что данный фактор (факторы) не оказывает влияние на вариацию (изменчивость) наблюдаемой величины Х, то есть на проверке статистичской гипотезы:-равенства групповых средних всех уровней фактора (факторов).

Термин однофакторный анализ (иликлассификация по одному признаку) относится к сравнении средних нескольких (одномерных) групп (популяций).

Однофакторная дисперсионная модель имеет вид:

где значение исследуемой переменной, полученной нам уровне фактора (см порядковым номером наблюдения (полное число уровней фактора, принимаемых фактором Ф;полное число наблюдений при применении фактора Ф;

случайная компонента (шум), или возмущение, вызванное влиянием неконтролируемых факторов;

генеральное среднее случайной величины.

Под уровнем фактора понимается некоторая ее мера, или состояние, например, прибыль, количество вносимых удобрений, интенсивность рекламы, интенсивность некоторого воздействия и т.п.

Основные предпосылки дисперсионноно анализа:

  1. Математическое ожидание возмущения равно нулю для любых т.е.

  2. Возмущения взаимно независимы.

  3. Дисперсия возмущения (или переменной постоянна для любыхит.е..

  4. Возмущение имеет нормальный закон распределения

Информация о влиянии и не влиянии фактора Ф на исследуемый процесс Х содержится в дисперсии переменной Х (общая дисперсия , которая в рассматриваемой задаче состоит из двух слагаемых: дисперсии, обусловленной фактором Ф (факторная дисперсия) и так называемой остаточной дисперсии, обусловленных шумами измерений и других не учитываемых факторов, причем

Далее вычислим эти дисперсии. Дисперсия двумерной случайной величины Х вычислчяется по формуле , где- число наблюдений;среднее выборочное значение случайной величины Х.

Общую среднюю можно получить как среднее арифметическое групповых средних:

, гдеили как.

На разброс прибыли относительно общей средней влияют как изменения уровня рассматриваемого фактора, так и случайные факторы. Для того чтобы учесть влияние данного фактора, общая выборочная дисперсия разбивается на две части, первая из которых называется факторной ,а вторая –остаточной

С целью учета этих составляющих вначале рассчитываются общая сумма квадратов отклонений вариант от общей средней

иобщая несмещенная дисперсия.

Факторная сумма квадратов отклонений групповых средних от общей средней, которая и характеризует влияние данного фактора,

ифакторная несмещенная дисперсия.

Остаточная сумма квадратов отклонений получается как разность

(А)

Она обусловлена влинием случайных погрешностей измерений или другими не контролируемыми исследователем факторами.

Для определения общей выборочной дисперсии необходимо разделить на число измерений

а для получения несмещенной общей выборочной дисперсии это выражение нужно умножить на где-число степеней свободы несмещенной факторной выборочной дисперсии.

Число степеней свободы– это число независимых друг от друга произведенных измерений.

Для несмещенной остаточной выборочной дисперсии с учетом формулы (А), число степеней свободы будет равно разности

(В)

и выражение остаточной дисперсии примет вид

В формуле (В) - число степеней свободы несмещенной общей дисперсии,число степеней свободы несмещенной факторной дисперсии.

С целью оценки влияния фактора на изменение рассматриваемого параметра (наблюдения рассчитывается критериальное значение, имеющее распределение Фишера-Снедекора

Полученное значение , как правило, принятое в теории проверки статистических гипотез, сравнивается со значением функции распределения

в критической точке, соотвествующей выборочному уровню значимости(Приложение ).получено решением уравнения относительно. Еслигде, то фактор оказывает существенное влияние на уровень прибыли и его следует учитывать, в противном случае он оказывает несущественное влияние, которым можно пренебречь. Здесь нулевой гипотезойявляется то, что фактор, т.е. реклама не оказывает влияние на изменчивость значений(прибыли).

Для расчета имогут быть использованы также формулы

или(1)

или(2)

Для оценки степени влияния фактора на результивный признак вычисляют выборочный коэффициент детерминации как отношение факторной дисперсиик общей дисперсии, т.е. как

который показывает, какая доля общей изменчивости величиныобусловлена изменением фактора

Смысл коэффициента детерминации легче понять из важнейшей формулы однофакторного дисперсионного анализа

+.

или . Чем меньше значение остаточной дисперсии, тем больше влияние контролируемого фактора, т.е. тем больше значение коэфффициента детерминации

Пример. Для проверки влияния внутрицехового оформления на качество продукции рассмотрены три участка по производству однотипной продукции и проведена выборочная проверка процента брака за пять месяцев. Результаты помещены в табл.

№ измерения

1

2

3

2

4

5

4

3

3

4

5

4

2

3

10

5

1

6

3

Групп. средняя

2,4

4,2

4,6

Проверить нулевую гипотезу о существенном влиянии внутрицехового оформления на процент брака выпускаемой продукции. Зададим нулевую гипотезуо том, что внутрицеховое оформление не влияет на брак выпускаемой продукции.

Решение. По условию задачи:

Находим общую cреднюю =(2,4+4,2+4,6)/3=3,73.

Для расчета по формуле (1) составляем таблицу квадратов вариант, т.е.

№ измерения

1

4

9

2

16

25

16

3

9

16

25

4

4

9

100

5

1

36

9

Сумма

34

95

151

71,3.

Вычисляем

Или

Получим

Определяем факторную и остаточную дисперсии:

Находим

Число степеней свободы факторной дисперсииравно

число степеней свободы остаточной дисперсииравно

На уровне значимости чисел степеней свободы 2 и 12, находимиз таблицы распределения Фишера-Снедекора (Приложение ):

В связи с тем, что (1,48<3,86)- нулевую гипотезу о не влиянии внутрицехового оформления на процент брака выпускаемой продукции принимаем. Это означает, что выборочные данные не противоречат гипотезе о не влиянии внутрицехового оформления.

Степень влияния фактора внутрицехового оформления на брак продукции определим вычислением коэффициента детерминации (средний).

Это означает, что 59,6 % общего брака продукции обусловлен качеством (видом) внутрицехового оформления помещений цехов, где производится выпускаемая продукция.

Контрольные вопросы

  1. Дать определение дисперсионного анализа.

  2. Записать формулы для вычисления общей, факторной и остаточной дисперсии в однофакторном дисперсионном анализе.

  3. Сформулировать нулевую гипотезу .

  4. Записать и пояснить критериальную формулу для проверки нулевой гипотезы (распределение Фишера-Снедекора).

  5. Записать уравнения для определения критических значений критеря.

  6. Записать и пояснить параметры критического значения критерия Фишера-Снедекора.

  7. Пояснить вычислительные формулы для определения степеней свободы икритерия.

  8. Записать и пояснить математическую модель однофакторного дисперсионного анализа.

  9. Записать и пояснить предпосылки использования дисперсионного анализа.

  10. Записать и пояснить смысл формулы коэффициента детерминации.

  11. На “оси значимости” пояснить алгоритм проверки гипотезы .

Лабораторная работа № 5