Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Компьютерный практикум по статистике

.pdf
Скачиваний:
158
Добавлен:
01.04.2015
Размер:
2.27 Mб
Скачать

Федеральное агентство по образованию

Государственное образовательное учреждение высшего профессионального образования

«ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ УПРАВЛЕНИЯ»

Кафедра прикладной математики

В. Н. Калинина, В. И. Соловьев

КОМПЬЮТЕРНЫЙ ПРАКТИКУМ ПО ПРИКЛАДНОЙ СТАТИСТИКЕ И ОСНОВАМ ЭКОНОМЕТРИКИ

Учебное пособие для студентов высших учебных заведений

i

Москва 2010

УДК 519.2 (075.8) ББК 22.17я73

К17

Р е ц е н з е н т ы:

доктор экономических наук, профессор В. С. Мхитарян; кандидат экономических наук, профессор Ф. Я. Кельман

Калинина Вера Николаевна

К17 Компьютерный практикум по прикладной статистике и основам эконометрики : учебное пособие для студентов вузов /

В.Н. Калинина, В. И. Соловьев. — М.: Вега-Инфо, 2010. — 140 с. ISBN 978-5-91590-009-6

Практикум предназначен для студентов экономических направлений подготовки, изучающих теорию вероятностей, математическую статистику, эконометрику, многомерные статистические методы, методы анализа нечисловой информации и другие математико-статистические дисциплины. Содержит индивидуальные расчетные задания, методические указания к их выполнению с использованием пакетов Microsoft Excel и PASW Statistics (SPSS), а также исходные числовые данные.

Практикум состоит из решения задач методами описательной статистики, дисперсионного, корреляционного, регрессионного, компонентного, факторного, кластерного и дискриминантного анализа, а также методами статистического анализа нечисловой информации для оценки связи между порядковыми и категоризованными случайными величинами.

Практикум может быть полезен студентам математических, технических и гуманитарных направлений подготовки, изучающим математическую и прикладную статистику, преподавателям, аспирантам, а также практическим специалистам, желающим применять рассматриваемые методы для решения прикладных задач в своей предметной области.

 

ББК 22.17я73

 

© В. Н. Калинина, 2010

 

© В. И. Соловьев, 2010

ISBN 978-5-91590-009-6

© ООО «Вега-Инфо», 2010

1.ОРГАНИЗАЦИОННО-МЕТОДИЧЕСКИЕ УКАЗАНИЯ

Всоответствии с Федеральными государственными образовательными стандартами высшего профессионального образования изучение прикладной статистики и эконометрики предусмотрено учебными планами большинства направлений подготовки. Студентам, как правило, преподается семестровый или годовой курс теории вероятностей и математической статистики. Кроме того, по ряду направлений подготовки предусмотрено изучение многомерных статистических методов, эконометрики, методов статистического анализа нечисловой информации. Математическая и прикладная статистика изучается также студентами математических, технических и многих гуманитарных направлений подготовки.

Данный практикум подготовлен для поддержки самостоятельной работы студентов и отражает более чем 30-летний опыт кафедры прикладной математики Государственного университета управления в преподавании математической статистики, эконометрики, многомерных статистических методов, методов анализа нечисловой информации и других дисциплин, традиционно относимых к прикладной статистике и эконометрике, студентам различных специальностей и направлений подготовки — и менеджерам, и экономистам, и социологам, и специалистам по статистике, и математикам. Последние 15 лет в преподавании активно используются компьютерные статистические пакеты.

С. А. Айвазян дает определение прикладной статистики как «само-

стоятельной научной дисциплины, разрабатывающей и систематизирующей понятия, приемы, математические методы и модели, предназначенные для организации сбора, стандартной записи, систематизации и обработки статистических данных с целью их удобного представления, интерпретации и получения научных и практических выводов» [2, Т. 1, С. 27-28].

Вкачестве обоснования необходимости использования термина «прикладная статистика» вместо традиционных названий «математическая статистика», «эконометрика», «анализ данных» С. А. Айвазян приводит следующие два аргумента [2, Т. 1, С. 26-27].

Во-первых, в прикладную статистику включаются не только традиционные методы математической статистики, которые опираются на вероятностную природу исходных данных, но и такие методы, использование которых не требует вероятностной интерпретации рассматриваемых данных (например, методы кластерного анализа).

Во-вторых, прикладная статистика рассматривает, в отличие от математической статистики, не только разработку математических методов, но

ивесь процесс применения этих методов при решении прикладных задач, в том числе такие этапы:

выяснение содержательной сущности задачи, адекватное «прилаживание» исходных модельных допущений, доработка необходимого математического инструментария;

преобразование исходных данных к стандартной унифицированной форме;

3

практическая реализация алгоритмов и использование возможностей имеющейся вычислительной техники и пакетов прикладных программ.

Фактически прикладная статистика объединяет в единое целое т е о - р и ю в е р о я т н о с т е й, м а т е м а т и ч е с к у ю с т а т и с т и к у, м н о - г о м е р н ы е с т а т и с т и ч е с к и е м е т о д ы, с т а т и с т и ч е с к и е м е - т о д ы а н а л и з а н е ч и с л о в о й и н ф о р м а ц и и, э к о н о м е т р и к у.

Без активной самостоятельной работы овладеть материалом прикладной статистики невозможно. Действенной формой а к т и в и з а ц и и с а м о - с т о я т е л ь н о й р а б о т ы с т у д е н т о в является выполнение индивидуальных расчетных работ.

Данный практикум предполагает выполнение с применением пакетов прикладных программ Microsoft Excel и PASW Statistics (SPSS) следующих 14

работ.

Математическая статистика:

Работа 1. Построение интервального вариационного ряда, оценива-

ние нормального закона распределения и его параметров.

Работа 2. Дисперсионный анализ (однофакторный и двухфакторный). Работа 3. Формулировка и решение вероятностно-статистических задач.

Основы эконометрики:

Работа 4. Парная корреляция и регрессия — исследование по корре-

ляционной таблице связи между компонентами двумерной случайной величины и зависимости одной величины от другой.

Работа 5. Множественный линейный регрессионный анализ — алгоритм пошагового исключения регрессоров.

Многомерные статистические методы:

Работа 6. Компонентный и факторный анализ. Работа 7. Кластерный анализ.

Работа 8. Дискриминантный анализ.

Статистические методы анализа нечисловой информации: Работа 9. Непараметрический анализ однородности выборок.

Работа 10. Оценка связи между двумя порядковыми случайными вели-

чинами.

Работа 11. Оценка связи между порядковой и категоризованной случайными величинами.

Работа 12. Оценка связи между несколькими порядковыми случайными величинами.

Работа 13. Оценка связи между двумя категоризованными случайными величинами.

Работа 14. Оценка связи между тремя категоризованными случайными величинами.

Работы 1, 2, 4—8, 13, 14 представлены 35 вариантами исходных числовых данных, что позволяет предложить студентам учебной группы индивидуальные задания. Исходная информация для выполнения этих работ и варианты исходных числовых данных приводятся в приложениях. Работы 3, 9—12 являются творческими, в них студент должен самостоятельно поставить не-

4

сколько задач и решить их. Приложения 1—4 подготовлены специально для данного пособия, приложения 5 и 6 заимствованы из пособия [20].

Работы, предлагаемые в данном практикуме, дают студентам возможность самостоятельного проведения комплексного статистического исследования в своей предметной области, что включает в себя постановку задачи, ее компьютерное решение и последующую детальную содержательную интерпретацию полученных результатов.

По мере выполнения работ студент должен защищать их перед преподавателем. Во время защиты студент должен кратко изложить решения задач и ответить на дополнительные вопросы, продемонстрировав владение теоретическим материалом и умение применять его к решению конкретных задач из своей предметной области.

В различных вузах данные работы могут составлять семестровые домашние задания, типовые расчеты, курсовые проекты и т. п. В зависимости от специальности преподаватель может предложить студентам выполнение всех работ или их части.

Конечно, практикум не исключает, а дополняет традиционную аудиторную работу студентов на лекциях и практических занятиях и выполнение текущих домашних заданий. Задачи и упражнения, решаемые студентами на практических занятиях, должны, прежде всего, акцентировать внимание студентов на теоретико-вероятностных предпосылках изучаемых методов, а также на методологии постановки задач и интерпретации получаемых результатов.

Отличительной особенностью практикума является ориентация на а к т и в н о е и с п о л ь з о в а н и е в ы ч и с л и т е л ь н о й т е х н и к и и с о в р е м е н н ы х с т а т и с т и ч е с к и х п а к е т о в п р и к л а д н ы х

пр о г р а м м.

Впримерах выполнения работ подробно разбирается применение па-

кета Microsoft Excel (как версий до Microsoft Excel 2003 включительно, так и новых версий Microsoft Excel 2007, Microsoft Excel 2010) и пакета PASW Statistics (ранее, до поглощения в 2009 г. компании SPSS корпорацией IBM, носившего название SPSS Statistics). Однако можно использовать и другие пакеты, например, SAS Statistics, STATISTICA и др.

Применение пакетов прикладных программ для расчетов рассматривается авторами только как элемент самостоятельной работы студентов под контролем преподавателя, позволяющий, с одной стороны, дать студентам возможность познакомиться с практическими применениями изучаемых методов математической и прикладной статистики, а с другой стороны — на лекциях и практических занятиях больше внимания уделить теоретическим основам изучаемых методов.

При использовании пакета Microsoft Excel основным инструментом является н а д с т р о й к а «Пакет анализа». Надстройки — это дополнитель-

ные возможности, «расширения», обогащающие стандартные возможности приложений Microsoft Office. В частности, надстройка «Пакет анализа» пре-

доставляет пользователю довольно широкие возможности статистического анализа; в основном эти возможности проиллюстрированы в работах 1—5.

5

Для использования надстройки «Пакет анализа» необходимо убедиться, что она активирована в системе. Для этого в версиях до Microsoft Excel 2003 включительно необходимо вызвать с помощью выбора пункта меню «Сервис | Надстройки» список надстроек пакета Microsoft Excel и убедиться, что в этом списке отмечен флажок «Пакет анализа». В версии Microsoft Excel 2007

для проверки того, какие надстройки активированы, нужно нажать кнопку «Microsoft Office» (она находится в левом верхнем углу окна программы и на ней изображена эмблема пакета Microsoft Office: ), затем кнопку «Параметры Excel», далее выбрать категорию «Надстройки», потом в выпадающем списке «Управление» выбрать пункт «Надстройки Excel» и нажать на кнопку «Перейти». В версии Microsoft Excel 2010 для проверки того, какие надстройки активированы, нужно на вкладке «Файл» выбрать команду «Параметры», а затем — категорию «Надстройки», потом в выпадающем списке «Управление» выбрать пункт «Надстройки Excel» и нажать на кнопку «Перейти».

Если в списке надстроек пакета Microsoft Excel не удается найти над-

стройку, которую требуется активировать, ее требуется установить. Для этого следует запустить программу установки Microsoft Office и выбрать вариант «Изменить», а затем указать, что требуется добавить надстройку «Пакет анализа». После перезапуска Microsoft Excel она должна появиться в

списке доступных надстроек, и напротив нее нужно установить флажок. Если надстройка «Пакет анализа» активирована, то в версиях до Micro-

soft Excel 2003 включительно в меню «Сервис» присутствует пункт «Анализ данных», а в версиях Microsoft Excel 2007 и 2010 на вкладке «Данные» при-

сутствует кнопка «».

Пакет PASW Statistics (предыдущие версии которого были известны как SPSS Statistics) предоставляет возможности эконометрического анализа,

многомерного статистического анализа и статистического анализа нечисловой информации, отсутствующие в пакете Microsoft Excel. Работа в различных версиях пакета SPSS — PASW Statistics сходна, в примерах выполнения

работ 5—10 описываются действия пользователя в наиболее современной версии PASW Statistics 18, однако в предыдущих версиях основные кнопки и

пункты меню такие же.

2. ЗАДАНИЯ ПРАКТИКУМА

РАБОТА 1. Построение интервального вариационного ряда, оценивание нормального закона распределения и его параметров (выполняется с применением программ «Гистограмма» и «Описательная статистика» надстройки «Анализ данных» пакета Microsoft Excel).

Задача. Служба маркетинга оценивает дилеров фирмы по объему продаж. Сведения об объеме ежедневных продаж товара (в тыс. ден. ед.) некоторым дилером за последние 100 дней приведены для каждого варианта в прил. 1. Требуется:

1. Построить интервальный вариационный ряд; полигон и гистограмму (на одном рисунке); кумуляту (на другом рисунке).

6

2.Вычислить выборочные характеристики: среднее, дисперсию, среднее квадратичное отклонение, коэффициент вариации, асимметрию, эксцесс, моду, медиану.

3.Заменив параметры нормального закона распределения их выборочными характеристиками, скорректированными на поправку Шеппарда, рассчитать и построить графики функции плотности и функции распределения нормального закона, «наложив» эти графики соответственно на полигон и кумуляту.

4.На 5%-ном уровне значимости проверить гипотезу о нормальном законе распределения объема ежедневных продаж.

5.Предположив нормальность распределения объема продаж, построить 95%-ные интервальные оценки математического ожидания, дисперсии и среднего квадратичного отклонения.

6.Предположив нормальность распределения объема продаж, на 5%-ном уровне значимости проверить следующие гипотезы:

а) H0: MX = [x] при альтернативной гипотезе H1: MX ¹ [x] (здесь [s] — це-

лая часть числа s); рассчитать вероятность ошибки второго рода, задавшись альтернативным числовым значением MX;

б) H0:DX =[s2X ]+1 при альтернативной гипотезе H1:DX ¹[s2X ]+1; рассчитать

вероятность ошибки второго рода, задавшись альтернативным числовым значением DX.

РАБОТА 2. Дисперсионный анализ.

i)Однофакторный дисперсионный анализ (выполняется с применением программы «Однофакторный дисперсионный анализ» надстройки «Анализ данных» пакета Microsoft Excel).

Задача. Сведения о количестве голосов Y, отданных за кандидата в

трех однотипных случайно выбранных избирательных округах, в которых использовались разные виды агитации (A(1) — личные встречи кандидата с избирателями, A(2) — раздача листовок с программой кандидата, A(3) — вы-

ступление кандидата по телевидению), приведены для каждого варианта в прил. 2, а. Требуется:

1.Записать детерминированную модель дисперсионного анализа количества голосов, поданных за кандидата в избирательном округе, и предъявляемые к ней требования. На 5%-ном уровне значимости проверить гипотезу о равенстве групповых генеральных дисперсий количества голосов, используя критерий Бартлетта.

2.Построить дисперсионную таблицу; на 5%-ном уровне значимости проверить гипотезу об отсутствии влияния видов агитации на количество голосов, поданных за кандидата.

3.В случае, если эта гипотеза отвергается:

а) оценить влияние видов агитации на количество голосов, используя коэффициент детерминации;

б) на 5%-ном уровне значимости провести попарное сравнение влияния видов агитации.

4.Оценить параметры модели.

7

ii)Двухфакторный дисперсионный анализ (выполняется с применением программы «Двухфакторный дисперсионный анализ с повторениями»

надстройки «Анализ данных» пакета Microsoft Excel).

Задача. При исследовании зависимости средней оценки Y по математической статистике в группе от метода обучения (A(1) — традиционный классический, A(2) — компьютерный, A(3) — комбинированный), будущей специальности (B(1) — «Менеджмент организации», B(2) — «Социология») и

их взаимодействия было выделено случайным образом 18 групп, которые приписывались в равных количествах шести комбинациям методов и специальностей. Знания оценивались тестом, состоящим из 120 вопросов. Сведения о среднем числе правильных ответов в группах приведены для каждого варианта в прил. 2, б. Требуется:

1.Записать детерминированную модель двухфакторного дисперсионного анализа (с повторениями) средней оценки по математической статистике в группе и предъявляемые к модели требования; проверить гипотезу

оравенстве групповых генеральных дисперсий.

2.Построить дисперсионную таблицу; на 5%-ном уровне значимости проверить гипотезы об отсутствии влияния на среднюю оценку: метода обучения; будущей специальности; взаимодействия метода обучения и будущей специальности.

3.При отклонении каких-либо из перечисленных гипотез рассчитать соответствующий коэффициент детерминации.

4.Оценить параметры модели.

РАБОТА 3. Формулировка и решение вероятностно-статистических задач.

Задача. Требуется сформулировать две — три социально-экономических задачи, требующих применения вероятностно-статистических методов, и решить их с использованием пакета Microsoft Excel.

РАБОТА 4. Парная корреляция и регрессия — исследование по корреляционной таблице связи между компонентами двумерной случайной величины и зависимости одной величины от другой (выполняется с применением программ «Описательная статистика», «Однофакторный дисперсионный анализ», «Корреляция» и «Регрессия» надстройки «Анализ данных» пакета Microsoft Excel).

Задача. Исследуется связь между расходами дилеров некоторой компании на рекламу продукции (X, тыс. ден. ед.) и их объемами продаж (Y, тыс. ден. ед.) и зависимость объема продаж Y от расходов на рекламу X.

Сведения по 60 случайно отобранным дилерам сгруппированы в корреляционную таблицу и приведены для каждого варианта в прил. 3. Требуется:

1. Выяснить, существует ли корреляционная зависимость объема продаж Y от величины расходов на рекламу X. Для этого необходимо:

а) построить поле корреляции; вычислить групповые средние yx

средние объемы продаж для указанных в корреляционной таблице интервалов расходов на рекламу; на том же графике построить линию групповых средних — линию, соединяющую точки (x; yx) , где x

центр соответствующего интервала значений расходов на рекламу x;

8

б)

используя случайную модель однофакторного дисперсионного анали-

 

за, проверить гипотезу об отсутствии влияния интервала вложенных в

 

рекламу средств на объем продаж;

 

 

 

 

 

 

 

в)

при отклонении гипотезы оценить влияние величины вложенных в

 

рекламу средств на объем продаж, используя корреляционное отно-

 

ˆ

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

ˆ

 

 

шение r(Y | X) и коэффициент детерминации r

(Y | X) .

 

 

2. Исследовать правомерность предположения о линейности корре-

ляционной связи между X и Y. Для этого:

 

 

 

 

 

 

 

а)

вычислить оценку ˆr(X,Y) коэффициента корреляции r(X, Y) и оценку

 

2

 

 

 

 

 

 

 

2

 

 

ˆr (X,Y) коэффициента линейной детерминации r (X, Y); предположив

 

нормальность распределения случайной величины (X, Y), на 5%-ном

 

уровне значимости проверить гипотезу H0: r(X, Y) = 0 при альтерна-

 

тивной гипотезе H1: r(X, Y) ¹ 0; при отклонении H0 дать содержатель-

 

 

 

2

 

 

 

 

 

 

 

 

ную интерпретацию ˆr(X,Y) и ˆr (X,Y) ;

 

 

 

 

 

 

б)

 

 

ˆˆ

 

 

 

 

и sELR модели линейной рег-

найти оценки a0, a1 и sELR параметров a0, a1

 

рессии Y = a

0

+ a x + e [где ε = N(0;σ

ELR

)] и прямой линией ˆy

=ˆa +ˆa x

 

 

1

 

 

 

 

x

0 1

 

«выровнять» линию групповых средних

 

x ;

 

 

 

y

 

 

в)

на 5%-ном уровне значимости проверить гипотезу H0: a1 = 0 при аль-

·

тернативной гипотезе H1: a1 ¹ 0; при отклонении H0:

 

 

 

 

 

 

 

 

 

ˆ

 

дать содержательную интерпретацию коэффициента a1 ;

 

·построить 95%-ную интервальную оценку параметра a1 и дать содер-

жательную интерпретацию ее границ; построить 95%-ную интервальную оценку параметра a0;

·дать точечные и 95%-ные интервальные прогнозы генерального среднего объема продаж и объема продаж для центров интервалов расхо-

дов на рекламу; найденные интервальные прогнозы изобразить на том же графике, где изображено поле корреляции.

г) на 5%-ном уровне значимости проверить гипотезу о линейности функции регрессии Y на x.

РАБОТА 5. Множественный линейный регрессионный анализ — алгоритм пошагового исключения регрессоров (выполняется с применением программ «Корреляция» и «Регрессия» надстройки «Анализ данных» пакета Microsoft Excel).

Задача. Изучается линейная (в среднем) зависимость результативного признака Y от пяти факторных признаков — регрессоров x(1), x(2), x(3), x(4), x(5) по числовым данным, собранным на n = 52 объектах. Варианты результа-

тивного признака, регрессоров и их числовые значения приведены для каждого варианта в прил. 4. Требуется:

1.Записать модель множественного линейного регрессионного анализа признака Y, предъявляемые к ней требования и соответствующую

функцию регрессии.

2.Рассчитать с помощью программы «Корреляция» матрицу (6 ´ 6)

оценок коэффициентов парной корреляции между признаками и сделать вывод о силе линейной связи результативного признака с каждым из регрессо-

9

ров и о силе линейной связи каждой пары регрессоров. Найти коллинеарные регрессоры (на практике коллинеарными считаются такие регрессоры, коэффициент корреляции между которыми по модулю больше 0,7—0,8). Матрицу (52 ´ 6) значений признаков сохранить для использования в работе 6.

3. Вычислить оценки ˆˆˆˆˆˆa , a , a , a , a , a и s

ELR

параметров модели мно-

0

1

2

3

4

5

 

жественной линейной регрессии Y = a0 + a1x(1) + a2x(2) + a3x(3) + a4x(4) + a5x(5) + e

[где ε = N(0;σELR )] с помощью программы «Регрессия» с «Выводом остатка»,

приняв уровень надежности равным 95%; записать уравнение регрессии и его стандартную ошибку (sELR); используя «Остатки», вычислить среднюю относительную ошибку аппроксимации d; привести формулы расчета показателей «Регрессионной статистики», пояснив их смысл.

4. Предположив выполнение условий линейного регрессионного анализа:

а) оценить статистическую значимость уравнения регрессии (проверить на 5%-ном уровне значимости гипотезу H0: a1 = a2 = a3 = a4 = a5 = 0, используя для этого в таблице «Дисперсионный анализ» F-статистику и значимость F — рассчитанный уровень значимости; привести алгоритм заполнения таблицы «Дисперсионный анализ»;

б) оценить статистическую значимость коэффициентов уравнения регрессии (проверить на 5%-ном уровне значимости гипотезы H0(j) : aj = 0 при альтернативных гипотезах H1(j) : aj ¹ 0 ; j = 1, 2, 3, 4, 5), используя для этого: t-статистику, P-значение — рассчитанный уровень значимости, 95%-ную интервальную оценку параметра aj.

5. При наличии в уравнении регрессии хотя бы одного незначимого коэффициента исключить тот регрессор, при котором коэффициент незначим, а соответствующая этому коэффициенту величина P-значения является наибольшей (или, иначе, значение модуля соответствующей t-статистики

является наименьшим). Выполнить пп. 3 — 4 с оставшимися регрессорами. Процедуру пошагового исключения регрессоров продолжать до тех пор, пока не будет получено значимое уравнение регрессии со значимыми коэффициентами.

Замечание. Если после исключения регрессора уравнение становится статистически незначимым или остается значимым, но его нормированный R-квадрат значительно

уменьшается, то этот регрессор следует «возвратить» в уравнение и исключить очередной регрессор, коэффициент при котором незначим (конечно, при наличии такого регрессора).

Систематизировать результаты пошаговой регрессии, выписав для каждого шага:

·уравнение регрессии ˆy =ˆa +ˆa x(1) +ˆa x(1) + +ˆa x(m) ;

x 0 1 1 k

· коэффициент линейной детерминации ˆ2 ( -квадрат), нормированный

R R

Rɶ2 (нормированный R-квадрат), стандартную ошибку sELR, ошибку аппроксимации d, значение F-статистики и критическую точку f0,05; k; nk–1, найденную с помощью функции FРАСПОБР;

·под оценками ˆaj параметров aj — 95%-ные доверительные интервалы

для этих параметров;

10