Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
СТАТИСТИКАъLABORATORN_J_PRAKTIKUM.doc
Скачиваний:
50
Добавлен:
04.03.2016
Размер:
3.6 Mб
Скачать

Лабораторный практикум по приложениям математической статистики

Целью постановок и выполнения лабораторных работ является привитие студентам навыков и культуры статистического мышления, вычислительных навыков. Привитие мысли и убеждений в том, что в статистических данных обследований массовых жизненно важных явлений содержится очень полезная информация об объекте и ее можно извлечь только в том случае, когда обработка этих массивов данных производится по алгоритмам, смысл которых понятен студенту. Только в этом случае возможна осмысленная интерпретация полученной информации, выходных данных алгоритмов.

Лабораторная работа № 1

Первичная обработка результатов наблюдений Цель и содержание лабораторной работы № 1

Цель работы: привить навыки первичной обработки эмпирических данных с помощью методов математической статистики:получение из выборочных данных эмпирического закона распределения исследуемых признаков, событий, процессов; вычисление числовых характеристик этих распределений; доверительных интервалов параметров распределений, в которых с заданной вероятностью находятся соответствующие числовые характеристики генеральной совокупности; содержательная интерпретация потученных усредненных числовых хпрактеристик распределений признаков.

Содержание работы:

  1. Группировка данных в вариационный ряд ( частот , частостейи функции распределения.).

  2. Графическое изображение вариационного ряда и эмпирической функции распределения.

  3. Вычисление основных числовых характеристик выборочной совокупности.

  4. Вычисление доверительных интервалов числовых характеристик изучаемой совокупности данных с заданной надежностью (вероятностью).

  5. Содержательная интерпретация результатов первичной обработки данных по условию задачи.

  6. Формулировка выводов по выполненной работе.

Форма отчета:

  1. Представление работы по указанному в методичке образцу.

  2. Самостоятельное изучение теоретического материала с помощью предлагаемых контрольных вопросов и краткие письменные ответов на все эти вопросы.

  3. Устное собеседование по работе, сдача зачета по письменным ответам на контрольные вопросы.

    1. Краткие теоретические сведения и план выполнения работы

Изучение свойств случайных величин методами математической статистики основано на первичной обработке выраженных в числовой форме результатов массовых выборочных наблюдений.

Закономерность, выявленная на основе массового (выборочного) наблюдения, называется статистической зависимостью.

Целью первичной обработки является представление первичной числовой информации в сжатой форме, а также получение сведений об основных закономерностях изучаемой совокупности случайных величин в выборке, соответственно и в генеральной совокупности.

В математической статистике различают генеральную и выборочную совокупности.

Под генеральной совокупностью понимается все мыслимое множество значений случайных признаков, объектов, обладающих общностью некоторого, изучаемого в данном исследовании, признака. Это множество, как правило, счетное. Примеры: гипотетически вызможные значения некоторого изучаемого признака (однотипных предприятий, лидей, предметов и т.п.).

Выборочная совокупность (выборка) – эта часть генеральной совокупности, которая фактически изучается.

Для того чтобы по выборке можно было достаточно уверенно судить о свойствах генеральной совокупности, она должна быть представительной (репрезентативной), т.е. достаточной по численности, случайной по отбору с соблюдением равной возможности каждого элемента генеральной совокупности попасть в выборку.

Теоретической основой выборочного метода является теорема Чебышева. Статистические закономерности обнаруживаются при массовом наблюдении благодаря действию так называемого закона больших чисел. Сущность закона больших чисел заключается в том, что по мере увеличения числа наблюдений влияние случайных факторов (причин), определяющих значение признака у единиц совокупности, взаимопогашаются в общих характеристиках совокупности (например, в средних величинах) и на поверхность выступает действие основных факторов, которые и определяютзакономерность.

Таким образом, массовые явления –основа статистики и одна из составляющих ее метода.

Теорема. С вероятностью, сколь угодно близкой к достоверности, можно утверждать, что при достаточно большом числе наблюдений, ограниченной дисперсии генеральной совокупности попарно независимых случайных величин разность между их средним арифметическом и средним арифметическим их математических ожиданий будет сколь угодно малой, т.е.

в частности ,

где - средняя для выборочной совокупности;

где - средняя для генеральной совокупности;

сколь угодно малое положительное число.

Итоги эмпирических наблюдений (выборка) представляют собой статистический ряд -таблицу значений изучаемой случайной величины, в которой содержится информация о числовых характеристиках выборки, следовательно и о числовых характеристиках генеральной совокупности. Эти числовые характеристики можно вычислить предварительно сгруппировав полученные первичные данные.

Первичная обработка результатов наблюдений состоит из нескольких этапов, позволяющих в конечном итоге рассчитать обобщающие показатели (характеристики). Рассмотрим содержание каждого из них.

Этап 1. Группировка данных в вариационный ряд и представление его в виде функции распределения.

Для того, чтобы статистические данные представить в виде вариационного ряда с равноотстоящими вариантами (переменными) необходимо:

1. Набрать исходные данные (по варианту) в один столбик на экране Excelи проранжировать их нажатием на панели инструментов кнопку от А до Я.

  1. В столбике эмпирических данных найти наименьшее и наибольшеезначения.

  2. Определить размах варьирования .

  3. Наметить число интервалов группировки (рекомендуется выделить от 5 до 20 групп так, чтобы каждая группа была достаточно наполнена значениями вариант). Можно также воспользоваться формулами

,,,

где число групп,объем выборки.

  1. Определить длину интервала

.

Вычисленное отношение следует округлить до удобного значения.

Искодные данные n,- занести на экранExcel.

  1. Записать интервалы группировок и расположить их в порядке возрастания границ:

…,

где нижняя граница первого интервала. Заберется удобное “круглое” число, не большее, верхняя граница последнего интерваладолжна быть не меньше. Это делается для того, чтобы интервалы содержали все исходные значения случайной величины.

  1. Разнести исходные данные по интервалам группировок, т.е. подсчитать по исходной таблице число значений случайной величины, попадающих в указанные интервалы. Если некоторые значения совпадают с границами интервалов, то их относят либо только к предыдущему, либо к последующему интервалу. Каждое случайное число должно быть отнесено только к одному из интнрвалов (группе)!

Записать интервальный ряд частот и относительных частот

…….

…….

…….

  1. От интервального ряда перейти к дискретному. Для этого каждый интервал заменить его средним значением, оставив частоты и относительные частоты (частости) без изменения:

……

…….

…….

0

……

1

где .

8. Записать эмпирическую функцию распределения Здесь для каждого значения суммируются вероятности тех значенийкоторые лежат левее точки

, гдечисло вариант (переменных) в последней таблице, значения которых меньше чем;

объем выборки, т.е.

Возрастающая функция определяет относительную частоту события

Замечание 1. Интервалы необязательно брать равными по длине. На участках, где значения располагаются “гуще”, удобнее брать более мелкие интервалы, а там где реже – более крупные.

Замечание 2.Появление “граничных” значенийнежелательно, это ведет к смещению эмпирического распределения от его истинного положения на числовой оси либо влево, либо вправо; выбирая границы, регулируя длину интервала, следует этого избегать.

Замечание 3. Если для некоторых получены “нулевые”, либо малые значения частот, то необходимо перегруппировать данные, укрупняя интервалы.

Этап 2. Графическое изображение ряда и эмпирической функции распределения.

Графически интервальный вариационный ряд изображается в виде либо гистограммы частот – ступенчатой столбчатой фигуры, состоящей из прямоугольников, основанием которых служат интервалы группировки , а высоты равны отношению частоты к длине интервалалибо в виде гистограммы частот, основанием которых служат интервалы группировки, а высоты равны частотам

Дискретный вариационный ряд графически изображается в виде полигона частот или относительных частот.

Полигон частот – это ломаная линия, отрезки которой соединяют точки с координатами

Полигон относительных частот – это ломаная линия, отрезки которой соединяют точки с координатами

Эмпирическая функция распределения графически изображается в виде линии, изменяющейся скачкообразно (ступенчатая фигура). На оси ОХ откладываются значения вариантов групп, а на оси OY– соответствующие им вероятности, вычисляемые по формуле

скачки происходят при переходе от одного интервала вида к другому.

Графическое изображение вариационных рядов и эмпирической функции распределения лучше уяснить на конкретном примере в разделе 1.2.

Этап 3. Вычисление числовых характеристик.

Условно числовые характеристики эмпирических распределений разделяются на начальные и центральные. Центральные моменты выражаются (вычисляются) через начальные. Все начальные и центральные моменты являются средними величинами.

Вычисление начальных эмпирических моментов (начальных и центральных средних).

Начальные моменты вычсляются относительно начала координат (нуля) числовой оси, а центральные моменты вычисляются относительно выборочного среднего. Все центральные моменты выражаются через начальные.

Начальные моменты.

1. -первый начальный момент (оценка математического ожидания выборки). Называется выборочной средней.

2. -второй начальный момент;

3.- третий начальный момент;

4. - четвертый начальный момент.

Центральные моменты.

5. дисперсия выборки (по определению)

или - второй центральный момент (все центральные моменты вычисляются относительно оценки математического ожидания).

  1. Среднее квадратическое отклонение (с.к.о.)

Все центральные моменты, вычисленные усреднением, являются смещенными, т.е. содержат систематические ошибки. Эти ошибки необходимо устранить. Устранение (исправление) этих ошибок в разных центральных моментах производится по разным формулам.

  1. Исправленная дисперсия

или, если- малая

  1. Исправленное среднее квадратическое отклонение

  1. Коэффициент асимметрии ,-характеризует асимметрию распределения случайных чисел от нормального распределения по горизонтали;

где центральный эмпирический момент третьего порядка, он вычисляется либо формуле

либо по формуле.

10. Коэффициент эксцесса -характеризует отклонение распределения случайных чисел от нормального распределения (остро или туповершинность распределения, асимметрия по вертикали); гдецентральный эмпирический момент четвертого порядка. Он вычисляется либо по формуле,

либо по формле

.

  1. Коэффициент вариации

,- характеризует меру вариации (относительной изменчивости) случайной величины.

Если - изменчивость незначительна;

Если - изменчивость средняя;

Если - изменчивость значительная.

Коэффициенты вариации дают относительную характеристику однородности явлений и процессов, они позволяют сравнивать степень вариации разных признаков.

Замечание.Для упрощения “ручных” расчетов, удобнее перейти от данных значений вариантк условным среднимпо формуле

где С- ложный нуль, равный значению(моды) в вариационном ряде распределения, которой соответствует наибольшее значение частотыт.е.в вариационном ряде. Тогда вариационный ряд примет вид

….

-2

-1

0

1

2

…….

….

…….

….

…….

Числовые характеристики в условных вариантах вычисляются по известным, приведенным выше формулам с той лишь разницей, что вместоиспользуется.

При обратном переходе от числовых характеристик с.в. к числовым характеристикам исходной переменнойиспользуются формулы:

Здесь использованы свойства математического ожидания, дисперсии и моментов более высоких порядков, когда с.в. XиYнезависимы:

1)

2)

3)

4)

5)

6) т.к.

7)

Промежуточные расчеты при вычислении числовых характеристик удобнее провести в виде таблицы.

Этап 4. Вычисление доверительных интервалов числовых характеристик изучаемой случайной величины с заданной надежностью (вероятностью).

Числовые характеристики, вычисленные по случайной выборке из генеральной совокупности, лишь приближенно характеризуют истинные значения аналогичных характеристик изучаемой генеральной совокупности. Поэтому по вычисленным значениямнеобходимо определить те надежностные интервалы, которые будут накрывать истинные значения числовых характеристик генеральной совокупности с заданной вероятностьюОтклонение выборочной характеристики (средней) от генеральной называетсяпредельной ошибкой выборки Она определяется в долях средней ошибки с заданной вероятностью, т.е.

, (А)

где коэффициент доверия, зависящий от вероятности, с которой определяется предельная ошибка выборки;ошибка выборки (ошибка выборочной средней).

Надежностный интервал для генеральной средней имеет вид

, гдесреднее выборочное,- объем выборки,выборочное с.к.о,- значение аргумента функции Лапласа, при которой она равна, т.е.находится по таблице значений функции Лапласса из условиянадежностная вероятность, выбирается исследователем. Значение, как правило, считается достаточным для большинства исследований. При этом предполагается, что распределение случайной величины, полученное суммированием исходных случайных венличин, распределенных по нормальному закону распределения, также распределена нормально.

Надежностный интервал с вероятностью накрывает генеральную среднюю.

Замечание. Если выборка мала (), то надежностный интервал для генеральной средней имеет вид

, гдеисправленное выборочное среднеквадратическое отклонение,коэффициент доверия, число, взятое из таблицы Приложения (таблица 3) значений.

Надежностный интервал для среднего квадратического отклонения генеральной совокупности имеет вид, гдеисправленное выборочное среднее квадратическое отклонение,табличное значение критических точек(таблица 4 Приложения). Надежностный интервал дляуказывает с вероятностьюна то, что эти отклонения могут принимать значения, находящиеся в пределах отдо

Определение необходимого объема выборки

При разработке программы выборочного обследования одним из наиболее сложных является вопрос о том, сколько единиц изучаемой совокупности необходимо обследовать, т.е. об объеме выборки (см.[2]).

Из формулы предельной ошибки выборки (А) следует, что если задана предельная ошибка выборки , то объем выборки, обеспечивющий заданную точность, определяется по формуле

.

Для определения необходимого объема выборки должны быть заданы предельная ее ошибка и вероятностьтого, что эта ошибка не превысит заданного предела. В соответствии с этой вероятностью по таблице Приложения находят коэффициент доверия.

Этап 5. Содержательная интерпретация результатов первичной обработки данных по условию задачи.

1. Оценка математического ожидания (среднее), вычисленное по выборочным данным, представляет собой обобщенную характеристику всей совокупности значений в целом; являясь как бы точкой сгущений, характеризует центральное положение значений случайной величины в эмпирическом законе распределения (см. графики гистогаммы, полигоны частот и вероятностей). В реальной жизни мы наблюдаем чаще всего (с большей вероятности) те значения признака, которые близки к.- это оценка математического ожиданиязакона распределения с.ч., т.е. это наиболее часто ожидаемое число.

2. Доверительный интервал указывает на то, что с вероятностьюгенеральная средняяизучаемой случайной величины заключена в найденном интервале.

3. Среднее квадратическое отклонение (с.к.о.) служит показателем о наиболее вероятном отклонении конкретной варианты признака от его среднего значения данной совокупности. С.к.о. измеряется в тех же единицах, что и варьирующий признаки исчисляется путем извлечения квадратного корня из дисперсии, т.е. как.

Основные значения, ядро вариационного ряда, содержится в интервале

илиОтклонения отпревосходящие по модулювозможны, но вероятность их уменьшается по мере удаления от.

Заметим, что если с.в. Х имеет нормальный закон распределения с параметрами ит.е.то практически достоверно, что ее значения заключены в интервале (.Эта закономерность «известна какправила трех сигм». Нарушение «правила трех сигм» является событием практически невозможным, т.к. его вероятность весьма мала:

Надежностный интервал с вероятностьюнакрывает значение среднего квадратического отклонениягенеральной совокупности.

4. Асимметрия указывает на нарушение симметрии распределения случайных чисел от среднего, наличие скоса. Еслито наблюдается правосторонняя асимметрия (преимущественно значения случайных чисел больше чем среднее значение); еслито левосторонняя; еслито распределение симметричное.

5. Эксцесс указывает на характер вершины распределения. Еслито распределение островершинное; еслито распределение пологое; еслито оно совпадает со стандартным нормальным.

6. Коэффициент вариации - стандартное отклонение, выраженное в процентах к средней арифметической данной совокупности, т.е.. (. Он является относительным показателем изменчивости с.в., дает относительную характеристику однородности явлений и процессов, позволяет сравнивать степень вариации разных признаков. Еслито изменчивость считают незначительным, еслито изменчивость считают средней, еслито изменчивость значительная. Этот коэффициент, как показатель колеблемости, имеет смысл только при положительных значениях вариант. ЕслиV>100%, то это является свидетельством неоднородности с.в. (признака).

Рассмотренные числовые характеристики необходимо сопоставлять с вариационным рядом, его графическим изображением и интерпретировать с учетом единиц измерения и содержания, указанных в условиях задачи.

    1. Образец выполнения работы

Дана средняя заработная плата трактористов (в тыс. руб)

120 480 175 490 410 425 430 385 335 315 545

475 480 225 445 255 425 375 320 320 160 245

    1. 265 445 425 265 410 305 325 335 455 220

  1. 275 435 275 415 310 340 330 215 215 275

  1. 415 285 265 315 345 345 245 225 285 365

  1. 335 295 275 330 315 340 230 215 295 375

  1. 255 370 385 355 360 285 345 305 310 235

  1. 390 395 360 370 340 340 320 315 255 275

  1. 390 370 380 325 330 340 335 345 325 325 325