Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ИСМ: Путеводитель.doc
Скачиваний:
8
Добавлен:
12.11.2018
Размер:
1.11 Mб
Скачать

5. Выборочный метод. Статистическая проверка гипотез

Выборочный метод — это система научных принципов случайного отбора определенной части совокупности, которая представляла бы всю совокупность и характеристики которой служили бы надежной основой статистического вывода.

Совокупность, из которой отбираются элементы для обследования, называют генеральной, а совокупность, которую непосредственно обследуют, — выборочной. Статистические характеристики выборочной совокупности рассматриваются как оценки соответствующих характеристик генеральной совокупности. Поскольку выборочная совокупность неточно воспроизводит структуру генеральной, то выборочные оценки также не совпадают с характеристиками генеральной совокупности. Различия между ними называют ошибками репрезентативности. По причинам появления эти ошибки делятся на систематические (тенденционные) и случайные. Систематические ошибки появляются, если при формировании выборочной совокупности нарушен принцип случайности отбора (преднамеренный отбор элементов, несовершенная основа выборки и т. п.). Случайные ошибки — это следствие случайности отбора элементов совокупности для обследования.

При организации выборочного обследования важно предупредить появление систематических ошибок. Избежать случайных ошибок невозможно, однако на основе теории выборочного метода можно определить их размер и по возможности регулировать.

В практике выборочных наблюдений используют два типа выборочных оценок — точечные и интервальные. Точечная оценка — это значение параметра по данным выборки: выборочная средняя или выборочная доля р. Интервальная оценка — это интервал значений параметра, рассчитанный по данным выборки для определенной вероятности, т. е. доверительный интервал. Границы его определяются на основе точечной оценки и предельной ошибки выборки  = t:

для средней

для доли

где  — средняя, или стандартная ошибка выборки; t — квантиль распределения вероятностей (доверительное число); и d0 — средняя и доля в генеральной совокупности.

Стандартная ошибка выборки  является средним квадратическим отклонением выборочных оценок от значений параметра, генеральной совокупности:

при повторном отборе

при бесповторном

где 2 — выборочная дисперсия; n и N — соответственно объем выборочной и генеральной совокупностей.

При практическом использовании данных формул следует учитывать, что:

1) дисперсия альтернативного признака рассчитывается как произведение долей 2 = р(1 - р) = pq;

2) в больших по объему совокупностях (30 и более единиц) поправка не вносит существенных изменений в расчеты, а поэтому учитывается только в малочисленных (малых) выборках;

3) корректирующий множитель для бесповторной выборки при малых величинах приближается к 1, поэтому при 1—5%-й выборке расчет  проводится по формуле для повторной выборки.

Предельная ошибка выборки  = t — это максимально возможная ошибка для принятой вероятности F(x). Доверительное число t показывает, как соотносятся предельная и стандартная ошибки. Так, t = 1 для вероятности 0,683; t = 2 для вероятности 0,954; t = 3 для вероятности 0,997.

Таким образом, используют следующие формулы предельной ошибки выборки:

повторная выборка

бесповторная выборка

для средней

для доли

Как видно из формул, размер предельной ошибки зависит от вариации признака 2, объема выборки n и ее доли в генеральной совокупности , а также принятого уровня вероятности, которому соответствует квантиль t.

При малых выборках (n < 30) квантиль t определяют по распределению вероятностей Стьюдента. В прил. 2 приведены значения t для F(x) = 0,95 и числа степеней свободы k= n - 1.

Пример. По данным анализа плавки легированной стали (10 проб), содержание никеля составляет в среднем 4,25% при 2 = 0,18. Предельная ошибка выборки с вероятностью F(x) = 0,95, для которой (9) = 2,26:

Доверительные границы: 4,25 ± 0,32, т.е. с вероятностью 0,95 можно утверждать, что содержание никеля в легированной стали не меньше 3,93 и не больше 4,57%.

При сравнении точности выборочных оценок используют относительную ошибку выборки V, которая показывает, на сколько процентов выборочная оценка отклоняется от параметра генеральной совокупности:

В нашем примере  = 0,14, а

Относительную ошибку выборки можно рассчитывать на основе коэффициента вариации признака Vх:

для повторной выборки

для бесповторной выборки.

Так, коэффициент вариации содержания никеля в легированной стали составит

следовательно,

Аналогично рассчитывают относительную ошибку выборки для доли:

В практике выборочных обследований используют разные способы формирования выборочных совокупностей, в частности: простой случайный, механический, типический (районированный), серийный.

Простой случайный отбор проводится путем жеребьевки или на основе таблиц случайных чисел. Это классический способ формирования выборочной совокупности, и именно на нем основывается теория выборочного метода.

При механическом отборе основой выборки является упорядоченная численность элементов генеральной совокупности. Отбор элементов осуществляется через одинаковые интервалы, шаг интервала зависит от доли выборки. Так, при = 0,05 шаг интервала составляет = 20. Ошибка механической выборки вычисляется по формуле бесповторной выборки. Для моментных наблюдений, фиксирующих состояние непрерывного процесса на определенные моменты времени, используют формулу ошибки повторной выборки.

Типический (районированный) отбор предусматривает предварительную структуризацию генеральной совокупности и независимый отбор элементов в каждой составной части. Объем типической выборки — это сумма частных выборок nj, т. е. , где m — число составных частей (групп, типических районов и т. п.).

При вычислении ошибки типической выборки используют среднюю из групповых дисперсий

Как правило, , следовательно, ошибка типической выборки меньше, чем механической или простой случайной. Чаще всего используют отбор, пропорциональный численности составляющих совокупности, т. е. доля выборки для всех составляющих одинакова.

При серийном отборе основа выборки состоит из серий элементов совокупности, связанных территориально (районы, поселки), организационно (фирмы, акционерные общества) и т. п. Серии отбираются по схеме механической или простой случайной выборки, обследованию подлежат все элементы серии. При вычислении ошибки выборки учитывается межсерийная вариация:

где s — число серий, — средняя k-й серии.

Проектируя выборочные наблюдения, определяют минимально достаточный объем выборки, при котором выборочные оценки представляли бы основные свойства генеральной совокупности:

для повторного отбора

для бесповторного

Для определения объема выборки n используют оценки дисперсий 2 аналогичных или пробных обследований. Если такие обследования отсутствуют, можно воспользоваться соотношением , а для доли взять наибольшее значение дисперсии 2 = 0,25.

Пример. Изучается отношение сельского населения региона к праву купли-продажи земли. По результатам аналогичных обследований в других регионах, 40% опрошенных поддерживают это право. При каком объеме выборки предельная ошибка (с вероятностью 0,954) не превысит 5%?

Опираясь на результаты аналогичных обследований, определим 2 = pq = 0,4 • 0,6 = 0,24. Тогда минимальный достаточный объем выборки составит

Если в основу расчета л положить относительную ошибку выборки V = tV формулы соответственно модифицируются:

для средней

для доли

Статистическая гипотеза — это определенное предположение относительно свойств генеральной совокупности, которое можно проверить по данным выборочного наблюдения. Гипотеза, которую необходимо проверить, формулируется как отсутствие различий между параметром генеральной совокупности G и заданной величиной а (нулевая гипотеза). Содержание ее записывают так: Н0 :G = а. Каждой нулевой гипотезе противопоставляют альтернативную На. В зависимости от значимости отклонений она формулируется как На : G > а; На : G < а или Н0 : G  а.

Если выборочные данные противоречат гипотезе Н0 она отклоняется, если согласовываются с ней — Н0 не отклоняется. Проверка гипотез непременно связана с риском принятия ошибочного решения: риск I рода — отклонение верной нулевой гипотезы, риск II рода — принятие Н0 когда в действительности верна альтернативная.

Правило, по которому гипотеза Н0 отклоняется или не отклоняется, называют статистическим критерием. Математической основой любого критерия является статистическая характеристика Z, закон распределения которой известен (например, характеристика t-распределения Стьюдента).

Вероятность риска отклонить верную гипотезу называют уровнем значимости а, а значение статистической характеристики для вероятности 1 - а — критическим значением Z1-а. В приложении приведены критические значения наиболее распространенных статистических критериев. Если выборочное значение Z > Z^1-а, гипотеза Н0 отклоняется, при Z < Z1-а не отклоняется.

В случае проверки справедливости Н0 : G = а против Н0 : G  а используют двусторонний критерий, а критическое значение Z определяется для а/2 , т. е.

Пример/ На курсах восточных языков используют две методики обучения — новую и традиционную. Для сравнения эффективности новой методики проведено тестирование двух групп китайского языка по 100-балльной системе. Восемь слушателей, обучавшихся по новой методике, получили

средний бал = 84 при дисперсии = 32; 10 слушателей, обучавшихся по традиционной методике, за такой же тест имели средний балл = 76 при дисперсии = 24. Разность между средними двух групп составляет ( - ) = 84 - 76 = 8 баллов. Необходимо проверить, случайны ли эти различия, или они обусловлены большей эффективностью новой методики. Нулевая гипотеза формулируется, исходя из предположения, что отклонение средних случайно, т.е. Н0 : = . Альтернативная гипотеза предусматривает, что новая методика эффективнее, т. е. Нa : > . При таком формулировании Ha проводится односторонняя проверка нулевой гипотезы. Статистической характеристикой проверки H0 является нормированное отклонение средних

подчиненное распределению вероятностей Стьюдента с числом степеней, свободы k = n1 + n2 - 2.

В нашем примере k = 8 + 10 - 2 = 16; оценка средней из групповых дисперсий составляет:

Критическое значение одностороннего t-критерия при а = 0,05 и k = 16 составляет t0,95 (16) = 1,75, что меньше фактического (t = 3,03). Следовательно, нулевая гипотеза Н0 : = отклоняется. С вероятностью 0,95 можно утверждать, что новая методика изучения восточных языков эффективнее.