Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Тема 1 системы (Восстановлен).doc
Скачиваний:
31
Добавлен:
22.02.2015
Размер:
6.72 Mб
Скачать

Тема 7. Математическая статистика Теоретические вопросы

1. Перечислите основные задачи математической статистики.

2. Что такое статистическая гипотеза и какие вы знаете этапы её проверки?

3. Дайте понятие генеральная совокупности, выборки, статистики.

4. Какие точечные оценки вы знаете?

5. Выборочные оценки математического ожидания и дисперсии, выборочная оценка вероятности, выборочная оценка «доли», выборочная оценка линейного коэффициента корреляции Пирсона

5. В чем заключаются свойства несмещенности, состоятельности, эффективности точечных оценок?

6. Интервальные оценки. Построение доверительных интервалов для параметров. Приведите примеры (построение доверительного интервала для «доли»).

7. Что называется статистическим критерием?

8.Расшифруйте понятия: выборка, уровень значимости, критическая область гипотезы.

9. Приведите примеры (проверка гипотез о виде закона распределения, о параметрах закона распределения).

Методические указания и примеры выполнения заданий

Пример 1.

Дана выборка значений некоторого непрерывного распределенного количественного признака Х, объем выборки n = 50:

-2,25

0,38

-1,31

-1,05

-0,07

-4,17

3,69

-1,47

2,34

-1,22

0,42

-3,24

0,95

-0,68

0,15

1,75

0,71

-3,37

0,95

0,99

-3,1

-2,79

-1,15

2,26

0,21

1,37

-1,62

1,41

3,95

-1,05

-0,03

-2,49

-0,52

2,91

-5,71

0,91

-3,78

-0,14

-0,82

-2,4

3,78

1,17

-1,79

0,16

2,02

-3,88

0,64

-1,08

3,18

-0,84

Требуется:

1) Построить интервальный ряд, определив количество интервалов по формуле Стерджеса, рассчитать частоты, относительные частоты (частости), накопленные частоты, накопленные частости.

2) Построить гистограмму, кумуляту.

3) Найти средние величины: выборочное среднее, медиану, моду.

4) Найти показатели вариации: размах, среднее линейное отклонение, выборочную дисперсию, выборочное среднее квадратическое отклонение, исправленную дисперсию и исправленное среднее квадратическое отклонение, коэффициент вариации.

Решение

1) Построим интервальный ряд: .

Согласно формуле Стерджеса рекомендуемое число интервалов:

Т.к. n=50, то . Начало первого интервала Конец последнего, седьмого интервала(минимальное и максимальное значение признака округлили в соответствующую сторону с точностью до десятых: для нижней границы – до десятых вниз, для верхней границы – до десятых вверх).

Длина каждого интервала будет равна .

Подсчитаем число вариант, попадающих в каждый интервал, получим вариационный ряд:

[-5.8; -4.4)

[-4.4; -3)

[-3; -1.6)

[-1.6; -0.2)

[-0.2; 1.2)

[1.2; 2.6)

[2.6; 4)

1

6

6

11

15

6

5

Разделив частоты на объем выборки найдем относительные частоты (частости): и запишем вариационный ряд с частостями и накопленными частотами и частостями (накопленные частоты подсчитывали как количество вариант, значения которых меньше правой границы каждого интервала).

Получаем:

[-5.8; -4.4)

[-4.4; -3)

[-3; -1.6)

[-1.6; -0.2)

[-0.2; 1.2)

[1.2; 2.6)

[2.6; 4)

1

6

6

11

15

6

5

0,02

0,12

0,12

0,22

0,3

0,12

0,1

1

7

13

24

39

45

50

0,02

0,14

0,26

0,48

0,78

0,9

1

2) Построим гистограмму частот в MS Excel:

Построим кумуляту для интервального ряда – ломанную, которая начинается с точки, абсцисса которой равна началу первого интервала, а ордината – нулю; другие точки этой ломанной соответствуют концам интервалов и накопленным частотам. Воспользуемся средствами MS Excel:

3) Найдем средние величины.

Среднее выборочное:

, где - середины интервалов.

Найдем медиану интервального ряда – значение признака, приходящегося на середину ранжированного ряда наблюдений. Сначала определяем интервал медианы – первый интервал, в котором накопленная частота окажется больше половины объема выборки, т.е. больше 25.

Таким интервалом в нашем случае является [-0,2; 1,2].

Найдем моду интервального ряда – значение признака, которому соответствует наибольшая частота. Сначала определяем интервал моды – интервал с наибольшей частотой: [-0.2; 1.2].

4) Найдем показатели вариации.

Размах:

Среднее линейное отклонение:

, где - середины интервалов,

Выборочная дисперсия:

Выборочное среднее квадратическое отклонение:

Коэффициент вариации:

Рассчитанная величина свидетельствует о неоднородности совокупности, т.к. однородной совокупность считается, если коэффициент вариации меньше 33% (для распределений близких к нормальному). Такой результат означает, что в исследуемой совокупности сильна вариация признаков по отношению к средней величине.

Исправленные выборочная дисперсия и среднее квадратическое отклонение:

Пример 2. Имеются выборочные данные социологических опросов о динамике предвыборных рейтингов некоторой политической партии (в процентах) в выбранном регионе страны за предыдущие 10 недель:

А

9

14

14

8

15

17

17

10

14

22

Найти доверительные интервалы для выборочных оценок «истинных» рейтингов данной политической партии в указанном регионе (среднего значения , дисперсиии стандартного отклонениягенеральной совокупности) при доверительной вероятности.

Решение. Составим ряд распределения и найдем среднее значение , дисперсиюи стандартное отклонениеS.

xi

8

9

10

14

15

17

22

ni

1

1

1

3

1

2

1

;

Из таблицы распределения Стьюдента найдем , а из таблицы- распределения паруи, такую что, т. е,.

,

- доверительный интервал для среднего значения.

Доверительный интервал для дисперсии:

;

.

Пример 3. Исходные данные

По 10 странам Западной Европы имеются следующие данные:

Х – доля расходов домашних хозяйств на конечное потребление, % к ВВП;

У – индекс развития человеческого потенциала, %.

Признаки Х и У имеют нормальный закон распределения.

Х

57

67

78

64

83

75

88

61

71

82

У

0,71

0,80

0,95

0,77

0,95

0,89

0,99

0,80

0,86

0,95

1. Рассчитайте оценки a, b параметров уравнения парной линейной регрессии.

2. Оцените тесноту связи между признаками с помощью выборочного коэффициента корреляции. Проверьте значимость коэффициента корреляции (α = 0,05).

4. Рассчитайте выборочный коэффициент детерминации. Сделайте вывод.

Решение.

1. Рассчитаем оценки параметров линейной модели методом наименьших квадратов

y = a + bx

хi

уi

хi2

хi уi

уi2

ŷi

i - ŷi)2

с - ŷi)2

i - ус )2

i – хс)2

1

57

0,71

3249

40,47

0,5041

0,728

0,000324

0,01932

0,025

243,36

2

67

0,80

4489

53,6

0,64

0,817

0,000289

0,0025

0,004

31,36

3

78

0,95

6084

74,1

0,9025

0,9151

0,00122

0,0023

0,007

29,16

4

64

0,77

4096

49,28

0,5929

0,79

0,0004

0,00593

0,009

73,96

5

83

0,95

6889

78,85

0,9025

0,96

0,0001

0,00865

0,007

108,16

6

75

0,89

5625

66,75

0,7921

0,888

0,000004

0,00044

0,001

5,76

7

88

0,99

7744

87,12

0,9801

1,00

0,0001

0,01769

0,015

237,16

8

61

0,80

3721

48,8

0,64

0,763

0,00137

0,01082

0,004

134,56

9

71

0,86

5041

61,06

0,7396

0,852

0,000064

0,00023

0,00

2,56

10

82

0,95

6724

77,9

0,9025

0,949

0,000001

0,00672

0,007

88,36

726

8,67

53662

637,93

7,5963

8,66

0,0039

0,0746

0,079

954,4

Найдем оценки a и b, используя систему уравнений для линейной зависимости.

Система нормальных уравнений:

;

.

Решая систему, получим

Линейная модель имеет вид: ŷ = 0, 221 + 0,00889х

2. Оценим тесноту взаимосвязи между признаками с помощью линейного коэффициента корреляции:

Коэффициент показывает высокую тесноту связи (прямолинейная зависимость).

Проверим значимость выборочного коэффициента корреляции.

Выдвигаем нулевую гипотезу (Н0) об отсутствии линейной зависимости.

Конкурирующая гипотеза (Н1) определяет двустороннюю критическую область.

Распределение Стьюдента с k = n – 2 = 10 – 2 = 8.

Tтабл (0,05; 8) = 2,31.

Так как, 12,41 > 2,31, то отклоняем гипотезу об отсутствии линейной зависимости. Другими словами, коэффициент корреляции статистически значим.

Коэффициент показывает высокую тесноту связи - прямолинейная зависимость между долей расходов домашних хозяйств на конечное потребление и индексом развития человеческого потенциала, что подтверждается экономической теорией.

4. Рассчитаем выборочный коэффициент детерминации. Для этого возведем коэффициент корреляции в квадрат.

Rв2 = (rв)2 = 0,9752 = 0,951

Коэффициент детерминации характеризует долю вариации признака У (индекс развития человеческого потенциала), объясненную линейным уравнением регрессии.

Таким образом, в среднем 95,1% вариации индекса развития человеческого потенциала объясняется вариацией доли расходов домашних хозяйств на конечное потребление в ВВП, а 4,9% зависит от вариации неучтенных в модели факторов.

Пример 4. Приведем необходимые формулы.

Выборочное уравнение прямой линии регрессии Y на X имеет вид

,

где и– выборочные средние признаковX и Y, и– выборочные средние квадратические отклонения,– выборочный коэффициент корреляции:

.

Если данные наблюдений над признаками X и Y заданы в виде корреляционной таблицы с равноотстоящими вариантами, то целесообразно перейти к условным вариантам

, ,

где C1 – ложный нуль вариант X, h1 – шаг, т.е. разность между двумя соседними вариантами; С2 – ложный нуль вариант Y , h2 – шаг вариант Y. В этом случае выборочный коэффициент корреляции имеет вид:

.

Величины могут быть найдены либо методом произведений (при большом числе данных), либо непосредственно по формулам:

, ,,.

Тогда величины, входящие в уравнение регрессии, можно пересчитать по формулам:

, ,,.

Решение. Найти выборочное уравнение прямой линии регрессии Y на X по данным, приведенным в корреляционной таблице:

Прямая соединительная линия 5y x

20

25

30

35

40

16

4

6

10

26

8

10

18

36

32

3

9

44

46

4

12

6

22

56

1

5

6

4

14

46

16

20

n=100

Составим корреляционную таблицу в условных вариантах, выбрав в качестве ложных нулей С1 = 30, С2 = 36, так как 32 – максимальная частота, встречающаяся в таблице.:

Прямая соединительная линия 4v u

-2

-1

0

1

2

-2

4

6

10

-1

8

10

18

0

32

3

9

44

1

4

12

6

22

2

1

5

6

4

14

46

16

20

n=100

Найдем и:

= 0,34;

=– 0,04.

Найдем , для чего составим расчетную таблицу:

Прямая соединительная линия 3u

v

-2

-1

0

1

2

-2

-8

4

-8

-6

6

-12

-14

28

-1

-8

8

-8

0

10

-10

-8

8

0

0

32

0

3

3

0

18

9

0

21

0

1

0

4

4

12

12

12

12

6

6

24

24

2

1

1

2

10

5

10

11

22

-8

-20

-6

14

16

16

20

0

14

32

Найдем вспомогательные величины и:

;

.

Найдем :

=;

.

Найдем искомый выборочный коэффициент корреляции:

= .

Найдем шаги

h1 = 25 – 20 = 5; h2 = 26 – 16 = 10.

Найдем и:

;

.

Найдем и:

= ;

= .

Искомое уравнение прямой линии регрессии Y на X :

или окончательно

.

Коэффициент детерминации для линейной регрессии равен квадрату коэффициента корреляции: . Коэффициент детерминации характеризует долю вариации признакаy, объясненную линейным уравнением регрессии. Таким образом, в среднем 57,76 % случаев изменения х приводят к изменению y, а 42,24% зависит от вариации неучтенных в модели факторов.

Значимость коэффициента корреляции

По таблице критических точек распределения Стьюдента находим Tтабл при k=n-2

Tтабл (k; ) = (98;0.1) = 1,66

Поскольку Tнабл > Tтабл , то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически значим. Интервальная оценка для коэффициента корреляции (доверительный интервал)

Доверительный интервал для коэффициента корреляции .