statistika_проц_22
.pdfмаксимально непохожи друг на друга, тогда как единицы совокупности внутри групп — максимально друг на друга похожи (группы должны быть максимально разнородными «снаружи» и максимально однородными — «внутри»). В основу группировки закладывается признак (или совокупность признаков), по которому единицы совокупности существенно отличаются друг от друга. Наиболее удач- ными, как правило, оказываются группировки, в основе которых лежит качественный признак.
Например, при изучении отношения к приватизации можно предположить, что тип предприятия, на котором работают респонденты (государственное или частное), будет существенно сказываться на их отношении к приватизации. В таком случае все предприятия разделяются на группы в зависимости от формы собственности, а потом из каждого типа отбираются респонденты, например, пропорционально численности данного контингента в генеральной совокупности.
Типический отбор организовать сложнее, чем собственно слу- чайный, так как необходимы определенные знания о составе и свойствах генеральной совокупности, но зато он дает более точ- ные результаты.
Отбор единиц из типических групп производится двумя методами:
■пропорционально объему (численности единиц) типических групп;
■непропорционально объему (численности единиц) типических групп, в том числе — пропорционально колеблемости признака в типических группах (оптимальное размещение).
Для осуществления пропорционального отбора единиц из типи- ческих групп необходимо заранее знать объем генеральной совокупности N, а также объем типических групп Nj. Такую информацию удается получить далеко не всегда. Однако, если эти величи- ны известны, то объем выборки из каждой типической группы рассчитывается по формуле:
|
nj = n |
Nj |
, |
(7.51) |
|
|
|||
|
|
N |
|
|
ãäå nj |
— объем выборки из j-й типической группы, |
|
||
n |
— объем выборочной совокупности, |
|
||
Nj |
— объем j-й типической группы, |
|
||
N |
— объем генеральной совокупности. |
|
251
Если объемы генеральной совокупности N или типических групп Nj — неизвестны, то приходится прибегать к непропорциональному отбору.
Наиболее точные оценки дает так называемое оптимальное размещение. Его используют тогда, когда удается оценить вариацию изучаемого признака внутри групп, т. е. — групповые дисперсии (средние квадратические отклонения).
Тогда объем выборки из каждой типической группы рассчитывается по формулам:
■ для средней
nj = n |
σjNj |
, |
(7.52) |
|
|||
|
∑σjNj |
|
ãäå σj — среднее квадратическое отклонение изучаемого признака
âj-é группе.
■äëÿ äîëè
nj = n |
Nj |
wj(1 − wj ) |
, |
(7.53) |
∑Nj |
|
|||
|
wj(1 − wj ) |
|
ãäå wj — выборочная доля в j-й типической группе.
Оптимальное размещение позволяет минимизировать стандартную (среднюю) ошибку выборки. Собственно говоря, принято счи- тать, что хорошо организованный типический отбор дает наименьшую погрешность в оценках параметров генеральной совокупности, чем другие способы отбора, так как случайную колеблемость будет определять только часть общей дисперсии — средняя из групповых дисперсий, которая теоретически должна быть меньше, чем межгрупповая дисперсия при серийном отборе. Впервые оптимальное размещение было предложено в 1920 г. А.А. Чупровым и независимо от него в 1934 г. Е. Нейманом.
Величина стандартной ошибки средней арифметической при типическом повторном отборе, пропорциональном объему групп может быть определена по формуле:
µx |
= |
σx2 |
, |
(7.54) |
|
|
n |
|
|
ãäå σx2 — средняя из групповых дисперсий признака; n — объем выборки.
252
При бесповторном отборе с каждой отобранной единицей вероятность отбора оставшихся единиц повышается, при этом стандартная ошибка выборочной средней уменьшается по сравнению с повторным отбором и имеет для типического бесповторного отбора, пропорционального объему групп следующий вид:
µx |
= |
σx2 |
|
N − n |
=% |
σx2 |
|
|
− |
n |
|
|
|
|
|
|
1 |
|
. |
||||
n N − 1 |
n |
|
|||||||||
|
|
|
|
|
|
N |
где N — объем генеральной совокупности.
Средняя из выборочных дисперсий типических групп σx2 ляются следующим образом:
|
|
|
k |
|
|
|
= |
∑σxj2 nj |
|
|
σx |
k |
, |
|
2 |
|
j=1 |
|
|
|
|
|
∑nj |
|
|
|
|
j=1 |
|
ãäå σxj2 — дисперсия признака x в j-й типической группе; nj — число единиц в j-й типической группе.
(7.55)
вычис-
(7.56)
Таблица 7.5
Формулы расчета стандартной (средней) ошибки выборки при типическом отборе, пропорциональном объему групп
µ |
Типический отбор, пропор- |
Типический отбор, пропор- |
||||||||||||
циональный объему групп |
циональный объему групп |
|||||||||||||
|
повторный отбор |
бесповторный отбор |
||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
n |
||
|
|
|
|
|
|
|
|
σ |
2 |
|||||
|
|
|
2 |
|
|
|
||||||||
Для средней |
µx |
= |
σx |
µx |
= |
|
x |
|
1 − |
|
|
|
||
|
|
|
|
n |
|
|
n |
N |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
n |
||
|
|
|
|
|
|
|
|
σ |
2 |
|
||||
|
|
|
2 |
|
|
|
||||||||
Äëÿ äîëè |
µw |
= |
σw |
µw |
= |
|
w |
|
1 − |
|
|
|
||
|
|
|
|
|
||||||||||
|
|
|
|
n |
|
|
n |
N |
Величина стандартной ошибки доли при типическом повторном отборе, пропорциональном объему групп может быть определена по формуле:
|
|
|
|
|
µw |
= σw2 |
, |
(7.57) |
|
|
|
n |
|
|
ãäå σw2 — средняя из групповых дисперсий выборочной доли.
253
Величина стандартной ошибки доли при типическом бесповторном отборе, пропорциональном объему групп может быть определена по формуле:
µw |
= |
σw2 |
N − n |
|
σw2 |
|
− |
n |
|
|||
n |
|
|
|
|
1 |
|
. |
(7.58) |
||||
|
|
|
||||||||||
|
|
|
N − 1 |
|
n |
|
N |
|
Средняя из групповых дисперсий для доли σw2 рассчитывается по следующей формуле:
|
|
|
|
|
k |
|
|
|
|
|
|
|
|
∑wj (1 − wj )nj |
|
|
|
|
σw2 |
= |
|
= |
j=1 |
|
|
|
|
w(1 − w) |
|
, |
(7.59) |
||||
|
|
k |
||||||
|
|
|
|
|
|
∑nj |
|
|
|
|
|
|
|
|
|
|
j=1
ãäå wj — выборочная доля в j-й типической группе; nj — число единиц в j-й типической группе;
k — число типических групп.
Формулы расчета стандартных (средних) ошибок выборки при типическом способе отбора, пропорциональном колеблемости признака в группе (оптимальное размещение) приведены в таблице 7.6.
Таблица 7.6
Формулы расчета стандартной (средней) ошибки выборки при типическом отборе, пропорциональном колеблемости признака в группах (оптимальное размещение)
|
|
|
Типический отбор, |
|
|
|
|
|
Типический отбор, |
|
|
|
|
||||||||||||||||||||||||
|
µ |
|
|
пропорциональный |
|
|
|
пропорциональный |
|
|
|
|
|||||||||||||||||||||||||
|
|
колеблемости признака |
колеблемости признака |
|
|
||||||||||||||||||||||||||||||||
|
|
|
|
|
|||||||||||||||||||||||||||||||||
|
|
|
в группах, повторный отбор |
в группах, бесповторный отбор |
|||||||||||||||||||||||||||||||||
|
Äëÿ |
|
|
|
1 |
|
|
∑ |
σ2 N 2j |
1 |
|
|
∑ |
σ 2 N |
2j |
− |
n |
j |
|
|
|
||||||||||||||||
|
|
|
|
|
|
|
xj |
|
|
|
|
|
|
xj |
|
|
1 |
|
|
|
|
|
|||||||||||||||
|
средней |
|
|
|
N |
|
|
nj |
|
|
|
|
|
|
|
N |
|
|
|
nj |
|
|
|
|
|
N j |
|
|
|
||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||
|
Äëÿ |
|
1 |
|
∑ |
w |
(1 − w |
j |
)N 2j |
|
1 |
|
∑ |
w |
(1 |
− w |
j |
)N |
2j |
|
− |
|
n |
j |
|
||||||||||||
|
|
|
|
j |
|
|
|
|
|
|
j |
|
|
|
|
|
|
1 |
|
|
|
||||||||||||||||
|
äîëè |
|
|
N |
|
|
|
|
nj |
|
|
|
|
|
N |
|
|
|
nj |
|
|
|
|
|
|
|
|
|
|
|
|
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
N j |
||||||||
ãäå N |
— объем генеральной совокупности; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
||||||||||||||||||
|
Nj |
— число единиц в j-й типической группе; |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
254
nj — число отобранных единиц в j-й типической группе;
σxj2 — выборочная дисперсия признака x в j-й типической группе
(дисперсия признака в выборке из j-й типической группы); wj — выборочная доля в j-й типической группе.
Таблица 7.7
Формулы расчета необходимой численности выборки при типическом отборе, пропорциональном объему групп
|
Типический отбор, |
Типический отбор, |
||||||||||||||
n |
пропорциональный объему |
пропорциональный объему групп, |
||||||||||||||
|
групп, повторный отбор |
бесповторный отбор |
||||||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Äëÿ |
n |
= |
|
z2 |
σx2 |
nx |
= |
|
z2 |
σx2N |
|
|
|
|||
|
|
|
2 |
|
|
|
|
|
|
|
|
|
||||
средней |
x |
|
|
|
|
|
|
|
2 |
|
|
2 |
2 |
|
|
|
|
|
|
∆x |
|
|
|
+ z |
|
|
|||||||
|
|
|
|
|
|
|
∆x N |
|
σx |
|||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Äëÿ äîëè |
n |
= |
|
z2 |
σw2 |
|
nw |
= |
|
z2 |
σw2N |
|
|
|
||
|
∆w2 |
|
∆w2 N |
+ z2σw2 |
||||||||||||
|
w |
|
|
|
|
|
||||||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Таблица 7.8
Формулы расчета необходимой численности выборки при типическом отборе, пропорциональном колеблемости признака в группах
|
|
Типический отбор, |
|
Типический отбор, |
|
|||||||||
n |
|
пропорциональный |
пропорциональный |
|||||||||||
колеблемости признака в |
колеблемости признака в |
|||||||||||||
|
||||||||||||||
|
группах, повторный отбор |
группах, бесповторный отбор |
||||||||||||
Äëÿ |
|
nj = n |
|
N jσ j |
nj = n |
|
N jσ j |
|||||||
средней |
|
∑N jσ j |
|
|
∑N jσ j |
|
|
|||||||
Äëÿ |
nj |
= n |
N j |
w j (1 − wj ) |
|
nj = n |
N j |
w j (1 − wj ) |
|
|||||
äîëè |
∑N j |
w j (1 − wj ) |
∑N j |
w j (1 − wj ) |
||||||||||
|
|
|
||||||||||||
|
|
|
|
Пример 7.7. В трех районах 30 тыс. семей. В первом районе — 15 тыс.; во втором — 12 тыс. и в третьем — 3 тыс. семей. Для определения числа детей в семье была проведена 10 %-я типи- ческая выборка с отбором единиц пропорционально объему типических групп. Внутри групп семьи отбирались с помощью слу- чайного бесповторного отбора. Результаты выборочного обследования семей в трех районах представлены в таблице.
255
Номер |
Число семей |
Среднее число |
Среднее квадратическое |
района |
в районе |
детей в семье |
отклонение |
1 |
15000 |
1,3 |
1,2 |
2 |
12000 |
1,8 |
2,5 |
3 |
3000 |
0,8 |
0,5 |
С вероятностью 0,95 определите границы доверительного интервала среднего числа детей в семье в трех районах.
Решение
По условию выборочное обследование проведено с помощью типического пропорционального отбора. Объем выборки n = 3000 семей, т.е. выборка — большая.
Найдем границы доверительного интервала среднего числа детей в семье в трех районах, т.е. границы доверительного интервала для генеральной средней.
По условию: n = 3000; N = 30000; ã = 0,95. Используем формулу:
P X% − z
σx2 |
|
|
n |
|
|||
|
|
|
% |
||||
|
1 |
− |
|
|
< X < X + z |
||
n |
|
N |
|
|
|
|
|
1 |
|
|
|
|
|
|
2 |
|
|
|
|
||||
σx |
− |
n |
= 2Φ |
(z) = γ, |
||||
|
|
|
||||||
|
|
|
|
|
|
|
0 |
|
|
n |
|
N |
|
|
|||
|
|
|
|
|
|
|
|
|
ãäå σx2 |
— |
средняя из групповых дисперсий выборочной средней; |
n |
— |
объем выборочной совокупности по всем типическим |
группам (районам); |
||
N — |
численность генеральной совокупности (число семей во |
|
всех районах). |
||
Объем выборки в каждой типической группе (районе) nj: |
nj = n Nj , N
ãäå Nj — число семей в j-м районе;
Найдем число семей, выбранных для обследования в каждом районе при условии, что объем выборочной совокупности n по трем районам составляет 3000 семей:
n |
= n |
N1 |
= 3000 |
15000 |
= 1500 семей; |
|
|
||||
1 |
|
N |
30000 |
|
|
|
|
|
256
n2 = 30001200030000 = 1200 семей;
n3 = 3000 300003000 = 300 семей.
Найдем среднее число детей в семье по трем районам в выборочной совокупности (выборочная средняя) с учетом численности отобранных групп:
% |
|
∑ xjnj |
|
1,3 1500 +1,8 1200 + 0,8 300 |
|
|
|||||||
x = |
|
% |
|
= |
|
|
|
|
|
= 1,45 ÷åë. |
|||
|
∑ n |
j |
|
|
|
|
3000 |
||||||
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Найдем среднюю из групповых дисперсий: |
|
||||||||||||
|
|
|
|
∑σj2nj |
|
|
1,22 |
1500 + 2,52 1200 + 0,52 |
300 |
|
|||
2 |
|
|
|
|
|
||||||||
σx = |
∑ nj |
|
= |
|
|
|
|
= 3,245. |
|||||
|
|
|
3000 |
|
|||||||||
|
|
|
|
|
|
|
|
|
|
|
Найдем z из соотношения 2Ф0(z) = ã:
2Ô0(z) = 0,95;
Ô0(z) = 0,95 / 2 = 0,475.
По таблице функции Лапласа (приложение 1) найдем, при каком z Ф0(z) = 0,475.
Ô0(1,96) = 0,475. Следовательно, z = 1,96.
Найдем предельную ошибку выборки:
∆x |
= z |
σx2 |
|
− |
n |
|
|
n |
1 |
|
|
; |
|||
|
|||||||
|
|
|
|
N |
|
∆x |
= 1,96 |
3,245 |
|
− |
3000 |
|
= 1,96 0,0312 = 0,0612. |
|||
|
1 |
|
|
|||||||
|
|
|||||||||
|
|
|
|
|
3000 |
|
|
30000 |
|
|
X |
− ∆x |
< |
|
< X + ∆x ; |
|
|
|
|||
X |
|
|
|
|||||||
% |
|
|
|
|
% |
|
|
|
|
|
1,45 − 0,0612 < X < 1,45 + 0,0612;
1,3888 < X < 1,5112.
Ответ. С вероятностью 0,95 можно ожидать, что среднее число детей в семье в трех районах находится в интервале от 1,3888 до 1,5112 чел.
257
Пример 7.8. Для выявления причин простоев был проведен хронометраж рабочего дня 10 % рабочих четырех различных цехов. Отбор рабочих внутри цехов производился с помощью собственно-случайного бесповторного отбора. В результате анализа выборочных данных была выявлена доля простоев из-за несвоевременного поступления комплектующих изделий:
Номер |
Число рабочих |
Удельный вес простоев из-çà |
|
несвоевременного поступления |
|||
öåõà |
в выборке, чел. |
||
комплектующих изделий, % |
|||
|
|
||
1 |
20 |
5 |
|
2 |
36 |
10 |
|
3 |
14 |
15 |
|
4 |
30 |
2 |
|
Итого |
100 |
– |
С вероятностью 0,95 определить границы доверительного интервала доли простоев на предприятии из-за несвоевременного поступления комплектующих изделий.
Решение
По условию задачи выборочное обследование проведено с помощью типического отбора пропорционального объему групп.
Объем выборки n = 100 чел., т.е. выборка — большая.
Найдем границы доверительного интервала доли простоев на предприятии из-за несвоевременного поступления комплектующих изделий.
По условию: n = 100; N = 1000; ã = 0,95. Используем формулу:
Pw − z
|
|
|
|
|
|
|
|
|
σw2 |
|
n |
|
|
|
|||
− |
< p < w + z |
|||||||
|
1 |
|
|
|||||
|
|
|||||||
n |
|
N |
|
|
|
|
|
|
|
|
|
|
|
2 |
|
|
|
|
|
|
|
σw 1 |
− |
n |
|
= 2Φ |
(z) = γ. |
||
|
|||||||
|
|
|
|
|
|
0 |
|
n |
|
N |
|
|
|||
|
|
|
|
|
|
|
|
ãäå σw2 — средняя из групповых дисперсий выборочной доли. Найдем среднюю выборочную долю простоев из-за несвоевре-
менного поступления комплектующих изделий в четырех цехах:
|
|
= |
∑ wjnj |
= |
0,05 20 + 0,1 36 + 0,15 14 |
+ 0,02 |
30 |
= 0,073. |
|
w |
∑nj |
|
|
|
|||
|
100 |
|
|
258
Дисперсия выборочной доли в i-й типической группе определяется по формуле
σj2 = wj (1 − wj ).
Для первого цеха она составит: σ12 = 0,05 (1 − 0,05) = 0,0475,
для второго — σ22 = 0,1 (1 − 0,1) = 0,09, для третьего — σ32 = 0,15 (1 − 0,15) = 0,1275,
для четвертого — σ42 = 0,02 (1 − 0,02) = 0,0196.
Найдем среднюю из групповых дисперсий выборочной доли:
|
|
|
|
|
k |
|
|
|
|
|
|
∑σj2nj |
|
|
σw2 |
= |
|
= |
j=1 |
= |
|
w(1 − w) |
|||||
|
k |
|||||
|
|
|
|
|
∑ nj |
|
|
|
|
|
|
j=1 |
|
= 0,0475 20 + 0,09 36 + 0,1275 14 + 0,0196 30 = 0,0656. 100
Найдем z из соотношения 2Ф0(z) = ã:
2Ô0(z) = 0,95;
Ô0(z) = 0,95 / 2 = 0,475.
По таблице функции Лапласа (приложение 1) найдем, при каком z Ф0(z) = 0,475.
Ô0(1,96) = 0,475. Следовательно, z = 1,96.
Найдем предельную ошибку выборки:
∆w |
= z |
σw2 |
|
1 |
− |
n |
= 1,96 |
0,0656 |
|
1 |
− |
100 |
|
= 1,96 0,0243 = 0,0476. |
||
|
|
|
|
|
|
|
|
|
||||||||
n |
|
100 |
1000 |
|||||||||||||
|
|
|
|
|
N |
|
|
|
|
|
|
Предельная ошибка выборочной доли w − ∆w < p < w + ∆w;
0,073 −0,0476 < p < 0,073 + 0,0476;
0,0254 < p < 0,1206.
Ответ. С вероятностью 0,95 можно ожидать, что доля простоев из-за несвоевременного поступления комплектующих изделий находится в интервале от 0,0254 до 0,1206.
259
Пример 7.9. В трех населенных пунктах 10 тыс. семей. В первом — 5 тыс.; во втором — 1 тыс.; в третьем — 4 тыс. семей. Для определения среднего размера семьи в трех населенных пунктах проектируется типическая выборка, пропорциональная объему групп, со случайным бесповторным отбором внутри типических групп.
Определить объем выборки (количество семей), чтобы с вероятностью 0,987 ошибка выборки при определении среднего размера семьи не превышала 0,5 человека, если на основе предыдущих обследований известно, что средняя из групповых дисперсий размера семьи равна 9.
Решение
Äàíî: ∆x = 0,5; σx2 = 9; ã = 0,987; N =10000.
Воспользуемся формулой расчета необходимой численности выборки для средней для типического бесповторного отбора, пропорционального объему групп:
|
|
|
|
|
|
|
nx = |
z2σx2N |
. |
||||
|
|
|
|
|||
∆2xN + z2σx2 |
||||||
|
|
Найдем z из соотношения 2Ф0(z) = ã:
2Ô0(z) = 0,987;
Ô0(z) = 0,987 / 2 = 0,4935.
По таблице функции Лапласа (приложение 1) найдем при каком z Ф0(z) = 0,4935.
Ô0(2,48) = 0,4935. Следовательно, z = 2,48.
Рассчитаем необходимую численность выборки:
= 2,482 9 10000 =
nx 0,52 10000 + 2,482 9 216,6.
Так как n — целое число, а также учитывая необходимость не превысить заданную ошибку, округлим полученный результат до большего целого.
Следовательно, необходимо обследовать не менее 217 семей. Ответ. Для того чтобы с вероятностью 0,987 ошибка выборки
при определении среднего размера семьи не превышала 0,5 человека, необходимо обследовать не менее 217 семей.
260