prikl_stat_konspekt_tereschenko
.pdfМИНИСТЕРСТВО ОБРАЗОВАНИЯ РЕСПУБЛИКИ БЕЛАРУСЬ БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФАКУЛЬТЕТ ФИЛОСОФИИ И СОЦИАЛЬНЫХ НАУК КАФЕДРА СОЦИАЛЬНОЙ КОММУНИКАЦИИ
ПРИКЛАДНАЯ СТАТИСТИКА В СОЦИАЛЬНЫХ НАУКАХ
ОПОРНЫЙ КОНСПЕКТ ЛЕКЦИЙ
О. В. Терещенко к.с.н., доцент
Минск 2011
О.В.Терещенко, 2011
СОДЕРЖАНИЕ |
|
Учебный план курса................................................................................................ |
3 |
Раздел 1: Статистические данные.......................................................................... |
4 |
Раздел 2: Описательная статистика....................................................................... |
7 |
Раздел 3: Основы статистического вывода......................................................... |
10 |
Раздел 4: Анализ статистических связей |
|
О.В. Терещенко 2011 |
2 |
УЧЕБНЫЙ ПЛАН КУРСА
|
|
Количество часов |
№ |
|||
№ |
Наименование разделов и тем |
|
|
|
|
зада- |
|
|
Лекц. |
Практ. |
КСР |
Всего |
ния |
|
|
|
|
|
|
|
|
РАЗДЕЛ 1. СТАТИСТИЧЕСКИЕ ДАННЫЕ |
|
|
|
|
|
|
|
|
|
|
|
|
1. |
Природа статистики. Особенности статистиче- |
2 |
|
|
2 |
|
|
ского подхода в социальном исследовании |
|
|
|
|
|
2. |
Основные этапы эмпирического социального |
4 |
2 |
2 |
8 |
1 |
|
исследования. |
|
|
|
|
|
3. |
Измерение в количественном социальном ис- |
4 |
6 |
2 |
12 |
2 |
|
следовании. |
|
|
|
|
|
4. |
Данные социального исследования. |
2 |
2 |
|
4 |
|
5. |
Подготовка данных к компьютерному стати- |
|
4 |
2 |
6 |
3 |
|
стическому анализу. |
|
|
|
|
|
|
РАЗДЕЛ 2. ОПИСАТЕЛЬНАЯ СТАТИСТИКА |
|
|
|
|
|
|
|
|
|
|
|
|
6. |
Одномерные частотные распределения. |
4 |
6 |
2 |
12 |
4 |
7. |
Графическое представление одномерных рас- |
4 |
4 |
2 |
10 |
5 |
|
пределений |
|
|
|
|
|
8. |
Меры центральной тенденции. |
2 |
2 |
|
4 |
6 |
9. |
Меры разброса данных. |
2 |
2 |
|
4 |
|
10. |
Анализ формы распределения. Стандартизация |
2 |
2 |
2 |
6 |
|
|
переменных. |
|
|
|
|
|
|
РАЗДЕЛ 3. ОСНОВЫ СТАТИСТИЧЕСКОГО ВЫВОДА |
|
|
|
||
|
|
|
|
|
|
|
11. |
Теория вероятностей как методологическая ос- |
2 |
|
|
2 |
|
|
нова статистического вывода. |
|
|
|
|
|
12. |
Основные теоретические распределения. |
2 |
4 |
|
6 |
|
13. |
Оценивание параметров генеральной совокуп- |
2 |
2 |
2 |
6 |
7 |
|
ности. Репрезентативность выборки. |
|
|
|
|
|
14. |
Статистическая проверка гипотез. |
4 |
4 |
2 |
10 |
8 |
|
РАЗДЕЛ 4. АНАЛИЗ СТАТИСТИЧЕСКИХ СВЯЗЕЙ |
|
|
|
|
|
|
|
|
|
|
|
|
15. |
Понятия статистической связи и независимости |
2 |
|
|
2 |
|
|
в социальных науках. |
|
|
|
|
|
16. |
Исследование связей по таблице сопряженности. |
4 |
4 |
2 |
10 |
9 |
17. |
Меры связи, основанные на рангах. |
2 |
2 |
|
4 |
|
18. |
Линейная статистическая модель парной связи. |
4 |
4 |
2 |
10 |
10 |
19. |
Нелинейные модели парной связи. |
2 |
2 |
2 |
6 |
11 |
20. |
Основы планирования эксперимента. |
2 |
|
|
2 |
12 |
21. |
Дисперсионный анализ. |
4 |
4 |
2 |
10 |
|
О.В. Терещенко 2011 |
3 |
Р а з д е л 1. СТАТИСТИЧЕСКИЕ ДАННЫЕ
Тема 1. Природа статистики. Особенности статистического подхода в социальных исследованиях
Статистика – наука, имеющая дело со сбором, обработкой, анализом и интерпретацией данных о массовых явлениях и процессах.
Статистические совокупности бывают генеральными и выборочными. Генеральная совокупность (ГС) – полная совокупность объектов, имеющих отношение к изучаемой проблеме, объект статистического обследования. Генеральные совокупности могут быть конечными или бесконечными, конкретными или гипотетическими, однородными или неоднородными.
Статистические обследования могут быть сплошными и выборочными, одноразовыми и повторными.
Повторные исследования могут осуществляться с использованием независимых выборок (мониторинг) или одной и той же выборки (панельное исследование).
Функции статистики: описание, обобщение, объяснение (прогнозирование). Особенности статистического подхода в социальных науках: абстрагиро-
вание от индивидуальности, оценочный характер полученных результатов. Корректное использование специфических статистических методов сбора,
обобщения и анализа данных.
Тема 2. Основные этапы эмпирического социального исследования
Основные этапы позитивного социального исследования:
•выдвижение гипотез (роль теории в прикладном исследовании);
•операционализация гипотез: выбор дизайна, обоснование выборки исследования; определение измеряемых показателей, разработка инструментария исследования;
•полевой этап исследования: сбор данных;
•обработка и анализ данных: ввод данных в компьютер, обработка и подготовка данных к статистическому анализу; анализ данных; проверка гипотез исследования;
•интерпретация полученных результатов, построение моделей исследуемых явлений и процессов.
О.В. Терещенко 2011 |
4 |
Тема 3. Измерение в количественном социальном исследовании
Измерением называется процедура присвоения наблюдаемым объектам определенных символов в соответствии с некоторым правилом. Символы могут быть просто метками, представляющими классы или категории объектов в генеральной совокупности, или числами, характеризующими степень выраженности у объекта измеряемых свойств. Алгоритм (правило) присвоения символа объекту называется измерительной шкалой. Как всякая модель, измерительные шкалы должны правильно отражать изучаемые характеристики объекта и, следовательно, иметь те же свойства, что и измеряемые показатели.
Шкала наименований (номинальная шкала) используется для обозначения принадлежности объекта к одному из нескольких непересекающихся и неупорядоченных классов. Частным случаем шкалы наименований является дихотомическая шкала, с помощью которой фиксируют наличие / отсутствие у объекта определенного качества или соответствие / несоответствие объекта некоторому требованию.
Шкала порядка позволяет не только разбивать объекты на классы, но и упорядочивать классы по возрастанию (убыванию) изучаемого признака. Частными случаями шкалы порядка являются: оценочная шкала, при использовании которой объект получает (или сам выставляет) оценки, исходя из определенного числа баллов; ранговая шкала, которую применяют, когда переменная заведомо не поддается объективному измерению или когда порядок объектов более важен, чем точная величина различий между ними.
Количественные шкалы интервалов и отношений имеют общее свойство, отличающее их от качественных шкал: они предполагают но наличие единицы измерения, позволяющей определять, на сколько значение признака у одного объекта больше или меньше, чем у другого. Шкала отношений имеет абсолютный нуль, не зависящий от произвола наблюдателя и соответствующий полному отсутствию измеряемого признака, на шкале интервалов нуль устанавливается произвольно или в соответствии с некоторыми условными договоренностями.
Количественные шкалы делятся на дискретные и непрерывные. Дискретные шкалы измеряются посредством счета, они могут принимать только целые неотрицательные значения Непрерывные шкалы предполагают, что измеряемое свойство изменяется непрерывно, и при наличии соответствующих приборов и средств, могло бы быть измерено с любой необходимой степенью точности.
В социальных науках для измерения применяются анкеты, тесты, стандартизированные интервью и т.п., получившие общее название измерительного инструментария. Вопросы инструментария могут быть открытыми и закрытыми, альтернативными и неальтернативными.
О.В. Терещенко 2011 |
5 |
Тема 4. Данные социального исследования
Данные социального исследования – формализованная и структурированная информация об объекте исследования.
Этапы формализации информации:
•определение генеральной совокупности (объекта исследования);
•построение выборки (выбор единиц наблюдения);
•операционализация понятий (выбор измеряемых показателей и определение способов их измерения);
•измерение показателей на единицах наблюдения.
Критерии структурирования данных: объект / переменная / время измерения. Структурирование данных в одномоментном исследовании: матрица дан-
ных «объект-признак» («случай–переменная»).
Временнóй ряд – последовательность значений переменной в определенные моменты времени. Структурирование временных рядов: матрицы данных «объект–время» и «переменная–время».
Структурирование данных в панельном исследовании: куб данных «объ- ект–переменная–время». Проблема пропущенных значений. Легальные и нелегальные пропущенные значения.
Подготовка данных к вводу в компьютер: проверка комплектности и полноты и правильности заполнения инструментария; проверка принадлежности объектов к выборке исследования; кодирование открытых вопросов; кодирование пропущенных значений.
ЛИТЕРАТУРА К РАЗДЕЛУ 1
1.Бутенко И.А. Анкетный опрос как искусство общения социолога с респондентом. Учеб. пособие. – М., 1989.
2.Бююль, А., Цефель, П. SPSS: Искусство обработки информации. – СПб, 2002.
3.Кимбл Г. Как правильно пользоваться статистикой. – М., 1982.
4.Крыштановский, А.О. Анализ социологических данных. – М., 2007.
5.Наследов, А. SPSS: Компьютерный анализ данных в психологии и социальных науках.
– СПб, 2007.
6.Паниотто В.И., Максименко В.С. Количественные методы в социологических исследованиях. – Киев, 1982.
7.Пациорковский В.В., Пациорковская В.В. SPSS для социологов. М., 2007.
8.Сатаров Г.А. Математика в социологии: стереотипы, предрассудки, заблуждения // Социологические исследования. 1986. №3.
9.Терещенко О.В. Социолог и ЭВМ. – Минск, 1990.
10.Терещенко О.В. Статистическая обработка и анализ социологической информации // Социология / Под ред. А.Н. Елсукова. – Минск, 2000.
11.Терещенко О.В. Первые шаги в SPSS для Windows. – Минск., 2001.
12.Терещенко О.В. Прикладная статистика для социальных наук. – Минск, 2002.
13.Толстова Ю.Н. Измерение в социологии. – М., 1998.
14.Толстова Ю.Н. Математико-статистические модели в социологии. – М., 2007.
О.В. Терещенко 2011 |
6 |
Р а з д е л 2. ОПИСАТЕЛЬНАЯ СТАТИСТИКА
Тема 6. Одномерные частотные распределения
Дескриптивнаястатистика– инструментописаниявыборочнойсовокупности. Абсолютная частота (frequency fi ) значения переменной – количество
объектов, обладающих данным значением.
Относительная частота ( nfi ×100% , где n – объем выборки)– процент или
доля объектов, обладающих данным значением.
Одномерное частотное распределение (frequency distribution) – таблица,
содержащая значения переменной и их частот.
Накопленная частота (cumulative frequency), используется только для по-
рядковых и количественных переменных. Вычисляется по формуле Fi = ∑i fi
j=1
– количество (процент, доля) объектов, имеющих значения, не превосходящие текущее значение. Распределение накопленных частот.
Необходимость группировки непрерывных переменных. Виды группировок:
•типологическая (интервалы произвольной длины, интерпретируются содержательно);
•аналитическая (интервалы одинаковой длины, содержательная интерпретация не требуется);
•процентильная (интервалы с одинаковыми частотами, длина – какая получится, интерпретация не требуется).
Квантиль – значение переменной, которое делит распределение переменной в заданной пропорции p / (1-p), где 0<p<1. Частные случаи квантилей: дециль, квинтиль, квартиль, медиана. Использование квантилей при построении процентильных группировок.
Тема 7. Графическое представление одномерных распределений
Графики как способ визуализации одномерных распределений. Основные виды графиков: диаграммы, гистограммы, полигоны распределения, кумуляты (графики накопленных частот), статистические карты, пиктограммы, графики временных рядов.
Общие требования к графикам:
•график должен отражать уровень измерения переменной (для количественных и порядковых шкал направление оси должно соответствовать возрастанию значений; дискретность переменной подчеркивается промежутками между столбцами, непрерывность – отсутствием промежутков);
•частоты на графике, в большинстве случаев, изображаются площадями фигур;
О.В. Терещенко 2011 |
7 |
•для оси частот, а также для осей порядковых и количественных переменных обязательно соблюдение масштаба;
•запрещается прерывать оси частот и плотности распределений.
Круговая диаграмма для номинальных переменных: νio = (fi n)×360o .
Дискретные графики: диаграммы полос и столбцов; ленточная диаграмма. Гистограмма и полигон распределения для непрерывных переменных.
Плотность распределения: ρi = fi li . График интерквартильного диапазона.
Графики накопленных частот (кумуляты) для дискретных и непрерывных переменных.
Тема 8. Меры центральной тенденции
Понятие центра распределения как разновидности «нормы», вокруг которой колеблются значения всех наблюдений: «среднее» как «типичное».
Мода ( Mo )– вероятностное среднее. Для дискретной переменной мода – наиболее часто встречающееся значение переменной, т.е. значение, обладающее максимальной частотой. Для непрерывной переменной определяется модальный интервал, которому соответствует максимальная частота (для аналитической группировки) или максимальная плотность.
Медиана ( Me ) – ранговое среднее граница 50%-ного интервала, значение переменной, которое делит вариационный ряд пополам, применяется для порядковых и количественных переменных.
Среднее арифметическое ( x ) – наиболее часто используемый показатель центра распределения для количественных переменных: x = ∑xi n , где xi –
значение переменной x для объекта i ; n – объем выборки.
Другие виды средних, используемые в статистическом анализе: среднее квадратическое, среднее геометрическое, среднее гармоническое.
Примечание: для дихотомической переменной разрешено вычисление среднего арифметического, которое равно доле положительных ответов: x = p .
Тема 9. Меры разброса данных
Диапазон разброса значений переменной является простейшей мерой степени разброса данных: d = xmax − xmin .
Стандартное или среднее квадратическое отклонение (СКО) показывает,
насколько индивидуальные значения переменной в среднем отклоняются от среднего арифметического:
s = ∑(xi − x)2 (n −1),
где xi – значение переменной для объекта с номером i ;
x – среднее арифметическое; n – объем выборки.
О.В. Терещенко 2011 |
8 |
Дисперсия – квадрат стандартного отклонения: s2 = ∑(xi − x)2 (n −1).
Примечание: дисперсия и СКО могут вычисляться для дихотомических переменных: s 2 = p(1 − p); s = p(1 − p).
Тема 10. Анализ формы распределения. Стандартизация переменных
Показатели формы распределения
Коэффициент асимметрии предназначен для проверки симметричности одномодального распределения: β1 = ∑(xi − x)3 ns 3 .
Распределение симметрично, если β1 = 0 ; имеет положительную (левую) асимметрию, если β1 > 0 ; имеет отрицательную (правую) асимметрию, если
β1 <1.
Коэффициент эксцесса характеризует форму одномодального симметричного распределения:
β2 = ∑(xi − x)4 n s 4 .
Распределение имеет форму нормального распределения, если β2 = 3; является островершинным, если β2 > 3; является плосковершинным, если β2 < 3 .
Стандартизированные значения переменной (z-оценки): zi = (xi − x)s .
Свойства z-оценок:
1)z = 0 ;
2)sz2 = sz =1;
3)при переходе к z-оценкам форма распределения не изменяется.
ЛИТЕРАТУРА К РАЗДЕЛУ 2
1.Бююль, А., Цефель, П. SPSS: Искусство обработки информации. – СПб, 2002.
2.Гласс, Дж., Стэнли, Дж. Статистические методы в педагогике и психологии. – М., 1976.
3.Крыштановский, А.О. Анализ социологических данных. – М., 2007.
4.Наследов, А. SPSS: Компьютерный анализ данных в психологии и социальных науках.
– СПб, 2007.
5.Паниотто В.И., Максименко В.С. Количественные методы в социологических исследованиях. – Киев, 1982.
6.Пациорковский В.В., Пациорковская В.В. SPSS для социологов. М., 2007.
7.Рабочая книга социолога / под ред. Г.В. Осипова. Изд. 5-е. – М., 2009.
8.Терещенко О.В. Статистическая обработка и анализ социологической информации // Социология / Под ред. А.Н. Елсукова. – Минск, 2000.
9.Терещенко О.В. Прикладная статистика для социальных наук. – Минск, 2002.
О.В. Терещенко 2011 |
9 |
Р а з д е л 3. ОСНОВЫ СТАТИСТИЧЕСКОГО ВЫВОДА
Тема 11. Теория вероятностей как методологическая основа статистического вывода
Случайная величина – функция X , определенная на генеральной совокупности. Случайные величины могут быть дискретными и непрерывными.
Выборочное пространство S – множество значений, которые может принимать случайная аеличина.
Случайное событие A – для дискретной случайной величины одно или несколько значений; для непрерывной случайной величины – интервал значений.
Вероятность случайного события P(A) – доля объектов из генеральной совокупности, принадлежащих данному событию.
Свойство аддитивности вероятностей: Если случайные события не пере-
секаются, то вероятность наступления одного из этих событий равна сумме их вероятностей: P(A + B)= P(A)+ P(B).
Примечание: В предельном случае, если непересекающиеся события покрывают все выборочное пространство, сумма их вероятностей равна 1:
P(A + B +... + K )= P(A)+ P(B)+... + P(K )=1.
Распределение вероятностей может быть задано тремя способами: законом распределения дискретной случайной величины, функцией плотности распределения непрерывной случайной величины; функцией распределения (универсальное представление).
Функция распределения для любого действительного числа u равна вероятности того, что значение случайной величины Х не превосходит u: F (u)= P(X < u). Свойства функции распределения:
1)определена для дискретных и непрерывных случайных величин на всей действительной оси: F (−∞)= 0 ; F (+ ∞)=1;
2)является неубывающей (для дискретных случайных величин – ступенчатой, для непрерывных – гладкой);
3)P(u ≤ X ≤ v)= F (v)− F (u);
4)для непрерывной случайной величины P(X < u)= P(X ≤ u).
Закон распределения дискретной случайной величины – совокупность ее отдельных значений и соответствующих им вероятностей. Свойства закона распределения:
1) 0 ≤ p(x)≤1 для любого значения x ;
+∞
2) ∑p(x)=1 ;
x =−∞
3) P(u ≤ x ≤ v)= ∑v p(x);
x=u
4) F (u)= ∑p(x).
x≤u
О.В. Терещенко 2011 |
10 |