Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции по статистике.doc
Скачиваний:
38
Добавлен:
24.03.2015
Размер:
468.48 Кб
Скачать

Тема №5

Тема: РЯДЫ РАСПРЕДЕЛЕНИЯ

  1. Ряды распределения, признаки рядов распределения

  2. Интервальные ряды распределения

  3. Показатели центра распределения, мода и медиана

  4. Показатели вариации

  1. Статистический ряд распределения – это упорядоченное распределение единиц совокупности на группы по определенному группировочному признаку, который изменяется количественно и качественно от одной единицы к другой или от одного периода времени к другому.

Ряды распределения могут быть:

  1. атрибутивные, т.е. ряды распределения, построенные по качественным признакам.

  2. вариационные, т.е. ряды распределения, построенные по количественным признакам:

  • дискретные признаки, отличаются друг от друга на некоторую конечную величину, т.е. даны в виде прерывных чисел; (н/р число детей в семье, число работников)

  • непрерывные признаки, могут отличаться друг от друга на сколь угодно малую величину; (н/р зарплата рабочих, размер среднедушевого денежного дохода)

Способы построения вариационного ряда для этих видов признаков различны.

Для построения дискретного ряда с небольшим числом вариантов достаточно перечислить все встречающиеся варианты значений признака, обозначаемые через Хi, а затем подсчитать частоту повторений каждого варианта Fi (например, распределение рабочих по разрядам, студентов по успеваемости и так далее).

Ряд распределения принято оформлять в виде таблиц, например:

Тарифный разряд рабочего, хi

Число рабочих, имеющих этот разряд, fi

Частота, Wi

Накопленная частота, Si

2

3

4

5

6

итого

1

5

8

4

2

20

0,05

0,25

0,40

0,20

0,10

1,00

1

6

14

18

20

Т.о., ряд первичных данных, характеризующих квалификацию 20 рабочих, заменен коротким рядом, состоящим из 5 групп. Вместо абсолютного числа рабочих, имеющих определенный разряд можно установить долю рабочих этого разряда.

Вариационные ряды состоят из вариантов и частот (частостей).

Варианты – отдельные значения признака, которые он принимает в вариационном ряду распределения.

Частоты – числа, показывающие, как часто встречаются те или иные варианты в вариационном ряду распределения.

Частости – частоты, выраженные в долях единицы или в процентах к итогу.

2. В тех случаях, когда число вариантов дискретного признака достаточно велико, а также при анализе вариации непрерывного признака, когда значение признака у отдельных единиц может вообще не повторяться, строятся интервальные ряды распределения.

Интервал указывает определенные пределы значений варьирующегося признака и обозначается верхней и нижней границами интервала.

При построении интервальных рядов распределения необходимо прежде всего установить число групп (интервалов), на которые будут разбиты все единицы изучаемой совокупности.

Определение величины интервала (h) для построения вариационного ряда с равными интервалами производится следующим образом:

  • вычисляется разность между максимальным и минимальным значением признака первичного ряда (определяется размах вариации R):

R =X max – Xmin;

  • размах вариации делится на число групп k, то есть h = R / k..

Число групп приближенно определяется по формуле Стэрджесса:

K = 1+ 3,322 lg n,

где n – общее число изучаемых единиц совокупности, оно обычно дробное и его следует округлить.

3. Для характеристики среднего значения признака в вариационном ряду используются: средняя арифметическая, мода и медиана.

Средняя арифметическая для дискретного ряда распределения рассчитывается по формуле:

Хсред. =  хi fi /  fi ; где хi – варианта значений признака;

fi – частота повторения данного варианта.

В вариационном интервальном ряду средняя арифметическая определяется по формуле:

Хсред. =  хki fi /  fi ; ; где хki - середина соответствующего интервала.

В отличии от средней арифметической, рассчитываемой на основе использования всех вариантов значений признака, мода и медиана характеризуют величину варианта, занимающего определенное положение в ранжированном вариационном ряду.

Медиана (Ме) соответствует варианту, стоящему в середине ранжированного ряда. Положение медианы определяется ее номером NMe =(n + 1) / 2, где n – число единиц в совокупности.

Например:

группы

Заработная плата,

тыс.тенге

Число работников,

чел.

Сумма накопленных частот

I

II

III

IV

V

VI

50-60

60-70

70-80

80-90

90-100

Свыше 100

10

30

70

60

25

5

10

40

110

-

-

-

Мода - наиболее часто встречающееся значение признака совокупности. Для указанного в примере ряда распределения она также …..(максимальная частота).

В интервальном ряду распределения сразу можно указать только интервал, в котором будут находиться мода и медиана.

Для определения медианы в интервальном ряду используют следующую формулу:

М=x+ h=

;где Х Ме – нижняя граница медианного интервала;

h – величина интервала;

S(-1) – накопленная частота интервала, предшествовавшего медианному;

fMe – частота медианного интервала.

НАПРИМЕР:

Размер прибыли, млн.тг

Число банков

Накопленная частота

3,7 - 4,6

2

2

4,6 – 5,5

4

6

5,5 – 6,4

6

12

6,4 – 7,3

5

17

7,3 – 8,1

3

20

Итого

20

В нашем примере рассчитаем медиану. По накопленным частотам определяем, что медиана находится в интервале 5,5 – 6,4.

Тогда:

Ме = 5,5+0,9* 0,5*20 – 6 = 6,175млн. тг

Т.о. 50% банков имеют прибыль менее 6,175 млн. тг, а 50% банков – более 6,175 млн. тг.

Теперь определим моду. Наибольшая частота также соответствует интервалу 5,5 – 6,4, то есть мода должна находиться в этом интервале. Ее величину определяем по формуле:

М= xh;

где:

Хмо – начало модального интервала;

fMo - частота, соответствующая модальному интервалу;

f(-1) - предмодальная частота;

f(+1) -послемодальная частота.

Приведенная формула может быть использована в вариационных рядах с равными интервалами:

Мо = 5,5 + 0,9 (6 – 4 ) / ((6 – 4) + (6 - 5)) = 6,10 млн. тг

Т.о., в данной совокупности наиболее часто встречается размер прибыли 6,10 млн. тг

4. Для измерения степени колеблемости отдельных значений признака от средней исчисляются основные обобщающие показатели вариации: дисперсия, среднее квадратическое отклонение и коэффициент вариации.

Дисперсия (2) – это средняя арифметическая квадратов отклонений отдельных значений признака от их средней арифметической.

В зависимости от исходных данных дисперсия вычисляется по формуле средней арифметической простой или взвешенной:

_

2 =  (х - х)2 / n - простая

_

2 =  (х - х)2 f / f - взвешенная

Среднее квадратическое отклонение () представляет собой корень квадратный из дисперсии и равно

=  (х - х)2 / n - невзвешенное

_

=  (х - х)2 f /  f -взвешенное.

В отличие от дисперсии среднее квадратическое отклонение является абсолютной мерой вариации признака в совокупности и выражается в единицах измерения варьирующего признака (тенге, тоннах, процентах и т.д.).

Для сравнения размеров вариации различных признаков, а также для сравнения степени вариации одноименных признаков в нескольких совокупностях исчисляется относительный показатель вариации – коэффициент вариации (V), который представляет собой процентное отношение среднего квадратического отклонения к средней арифметической:

V =  *100/ xсред

По величине коэффициента можно судить о степени вариации признаков, а следовательно, об однородности состава совокупности. Чем больше его величина, тем больше разброс значений признака вокруг средней, тем менее однородна совокупность по составу.

НАПРИМЕР:

Стаж, лет

Среднесписочная численность работников, чел., f

Середина интервала,

хi

xi f

xi - xcp

(xi -xcp)2

(xi -xcp)2 f

До 3

3-5

5-7

7-9

свыше 9

10

48

28

10

4

2

4

6

8

10

20

192

168

80

40

-3

-1

1

3

5

9

1

1

9

25

90

48

28

90

100

Итого

1000

-

500

-

-

356

Определить:

  1. средний стаж работников;

  2. дисперсию;

  3. среднее квадратическое отклонение;

  4. коэффициент вариации.

Решение: 1. Хсред. = 500/100=5 лет

  1. дисперсия

2= 356/100=3,56=3,6

  1. среднее квадратическое отклонение

 = 356/100 =  3,6 = 1,8867

  1. коэффициент вариации

V = 1,8867/5 * 100 =37,7 %

Правило сложения дисперсий (вариаций). Для статистической совокупности, сгруппированной по изучаемому признаку, возможно вычисление трех видов дисперсий: общей (2), частных (внутригрупповых) – (i2) и межгрупповой (2). Общая дисперсия характеризует вариацию всех единиц совокупности от общей средней, частные – вариацию признака в группах от групповой средней и межгрупповая - вариацию групповых средних от общей средней. Между указанными видами дисперсий существует соотношение, которое называют правилом сложения дисперсий: общая дисперсия равна сумме средней из частных дисперсий и межгрупповой:

2 =i2 + 2

Если основанием группировки является факторный признак, то с помощью правила сложения дисперсий можно измерить силу его влияния на результативный признак. Вычислив коэффициент детерминации и эмпирическое корреляционное отношение.

Коэффициент детерминации равен отношению межгрупповой дисперсии к общей:

2 = 2х / 2

Показывает долю общей вариации результативного признака, обусловленную вариацией группировочного признака.

Корень квадратный из коэффициента детерминации называется эмпирическим корреляционным отношением:

= 2х / 2

По абсолютной величине он может изменяться от 0 до 1. Если = 0, группировочный признак не оказывает влияния на результативный. Если = 1, изменение результативного признака полностью обусловлено группировочным признаком, т. е. между ними существует функциональная связь.

ТЕМА №9 Тема: ВЫБОРОЧНОЕ НАБЛЮДЕНИЕ

  1. Определение, задачи и цели

  2. Средняя ошибка выборки

  3. Расчет ошибки выборки для доли

1. Выборочное наблюдение – это несплошное наблюдение, при котором статистическому обследованию подвергается не вся изучаемая совокупность. А лишь ее часть, отобранная специальным образом.

Задача выборочного наблюдения – по обследуемой части изучаемой совокупности дать характеристику всей совокупности.

Цель выборочного наблюдения – по среднему значению признака у отобранной части единиц с достаточной точностью дать вывод о величине этих показателей у всех единиц того же рода.

Выборочное наблюдение проводится в следующих случаях:

  • когда вся совокупность единиц (генеральная совокупность) бесконечно велика и мы практически не можем исследовать каждую единицу;

  • когда изучение свойств совокупности связано с ее уничтожением;

  • с целью экономии средств и времени.

НАПРИМЕР: нам нужно выяснить среднюю продолжительность горения лампочек. Чтобы установить их качество.

Вся совокупность (общее кол-во лампочек) N = 10000. Выборка n = 100 штук. Для установления средней продолжительности горения отобранных 100 лампочек. Мы наблюдаем их на протяжении всей продолжительности горения. Затем разбиваем всю выборочную совокупность на интервалы, указывающие среднюю продолжительность горения лампочек:

Продолжительность горения лампочек (час)

Число лампочек (штук)

Середина интервала

170-190

190-210

210-230

230-250

250-270

5

15

40

30

10

180

200

220

240

260

Итого

100

-

Средняя продолжительность горения лампочки из выбранной совокупности равна:

Хсред = xf /  f = (5 * 180 + 15 * 200 +40 * 220 + 30 * 240 + 10 * 260) / 100=225 часов

2. Средняя ошибка выборки – это расхождение между генеральными и выборочными характеристиками.

По способу проведения отбор может быть повторным и бесповторным. При повторном отборе каждая единица совокупности после исследования ее признака возвращается обратно в генеральную совокупность и может быть отобрана еще раз. При бесповторном отборе каждая единица совокупности может быть отобрана только один раз, так как после изучения ее признака она не возвращается в генеральную совокупность.

Средняя ошибка при повторном отборе:

, где n – численность выборки

При бесповторном отборе средняя ошибка выборки равна:

; величина (1 - n) / N всегда меньше единицы, поэтому величина средней ошибки выборки при бесповторном отборе оказывается меньше, чем при повторном

(дисперсия)

Вероятность всегда равна 0,683. Это означает, что если мы из нашей генеральной совокупности сделаем 1000 аналогичных выборок, то в 683 выборках интересующая нас средняя будет лежать в указанных пределах, а в остальных 317 выборках результат будет находиться за данными пределами.

Если мы хотим увеличить вероятность наших утверждений, то мы переходим от средней ошибки выборки к предельной

t

P (вероятность)

1

2

3

3,5

0,683

0,954

0,997

0,999

Рассчитаем среднюю ошибку выборки для примера, рассмотренного в предыдущем вопросе

2 =395  =  395 /100 * (1-100) / 10000 = 1,98 часа;

__ __ __

Хв/с - Хген/с Хв/с + ;

225 – 2 Хген/с 225 + 2

Увеличим вероятность нашего утверждения до 0,997,. Для этого перейдем к предельной ошибке выборки t : __ _ __ __ _ __

t = 3 * 1,98 = 5,94; __ Хв/сt Хген/с Хв/с ++ t; 225 –6 Хген/с 225+6

219 часов Хген/с 231 час; при р = 0, 997

3. Формула расчета ошибки выборки для доли при повторном отборе:

= W(1 - W),

n где W – доля единиц, обладающих данным признаком;

1 – W - доля единиц, не обладающих этим признаком;

расчет средней ошибки выборки при бесповторном отборе:

= W(1 - W) * (1 - n); W - Р W +

n N

Если мы хотим увеличить вероятность наших утверждений, то мы переходим от средней ошибки выборки к предельной. t = t *; W – t P W + t;

Определим для нашего примера удельный вес ламп, продолжительность горения которых равна более 230 часов: W = 40 / 100 = 0,4 или 40%;

= 0,4* 0,6 * 1 – 100 = 0,05 0,4 – 0,05 Р 0,4 + 0,05; 0,35 Р 0,45;

100 10000 35% Р 45% при р = 0,683

Для увеличения вероятности наших расчетов, переходим к предельной ошибке выборки: t = 2*0,05 = 0,1 при р = 0,954.

0,4 – 0,1 Р 0,4 +0,1; 30% Р 50% при Р = 0,954

Если из генеральной совокупности сделать несколько выборок и каждый раз при этом определять среднее значение признака, то возникает задача оценки колеблемости средних. Оценить дисперсию среднего значения можно и на основе всего одного выборочного наблюдения по формуле

2 (Х) = 2 / n, где nобъем выборки; 2дисперсия признака, рассчитанная по данным выборки.

Формулы:

Х = ni / n = W; 2w = W (1 - W); = W(1 - W),

n

Используются для оценки точности выборочного значения доли (удельного веса) как средней величины альтернативного признака.

Под альтернативным понимается такой статистический показатель, который принимает одно из взаимоисключающих значений (пол – мужской или женский; изделие – годное или негодное; план по выпуску продукции – выполнен или не выполнен; заказ – выполнен менее, чем на 90% или более, чем на 90 % и т.д.). То есть, конкретное содержание альтернативного признака устанавливается самим исследователем. Обычно считают, что если признак Х принял интересующее нас значение, то его величина равна 1, в противном случае Х = 0. В результате в n1 наблюдениях имеем интересующее нас явление (когда Х = 1), а в n2 случаях оно отсутствует (когад Х = 0). Таким образом,

Хw = (1 * n1 + 0 * n2) / (n1 + n2) = n1 / (n1 = n2) = n1 / n = W, т.е. среднее значение альтернативного показателя равно частоте его появления (W = n1 / n). Аналогично

2w = (1-W)2 * n1 + (0 - W)2 * n2 = (1-W)2 * W + W2 * (1 - W) = W (1-W)

(n1 + n2)

т.е. дисперсия альтернативного показателя равна произведению частоты его появления на частоту его отсутствия.

4. В практике проектирования выборочного наблюдения возникает потребность в нахождении численности выборки, которая необходима для обеспечения определенной точности расчета генеральных характеристик – средней и доли.

Предельная ошибка выборки, вероятность ее появления и вариация признака предварительно известны.

При случайном повторном отборе численность выборки определяется по формуле

n = t2 2 (1)

2 ;

При случайном бесповторном и механическом отборе численность вычисляется по формуле

n = t2 2 N (2)

N 2 +t22 ;

Для типической выборки n = t2 ср2 N (3)

N 2 +t2 ср 2 ;

Для серийной выборки n = t2 2 R (4)

R 2 +t2 2 ;

НАПРИМЕР: в районе проживает 2000 семей. Предполагается провести их выборочное обследование методом случайного бесповторного отбора для нахождения среднего размера семьи. Определить необходимую численность выборки при условии, что с вероятностью 0,954 ошибка выборки не превысит одного человека при среднем квадратическом отклонении три человека.

РЕШЕНИЕ: при бесповторном случайном отборе численность выборки по формуле (2) составит : n = 4 * 9 * 2000 = 35 семей

2000 * 1 + 4 * 9