Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

35589645

.pdf
Скачиваний:
22
Добавлен:
10.03.2016
Размер:
8.06 Mб
Скачать

РОССИЙСКАЯ КОРРУПЦИЯ: УРОВЕНЬ, СТРУКТУРА, ДИНАМИКА. ОПЫТ СОЦИОЛОГИЧЕСКОГО АНАЛИЗА

событий независимо от того, составляют ли они полную систему событий или нет, например, частоты ответов на множественные вопросы.

Приведем два примера сравнения частот. Первый из них — сравнение частот из двух проектов (2002 и 2005 гг.), в которых предпринимателям сначала задавался вопрос о неформальном стимулировании должностных лиц, а затем у тех, кто положительно ответил на этот вопрос, спрашивали: «Какого типа проблему вам пришлось решать в тот раз?» (не более 3-х ответов)». В списке для этого вопроса содержалось 16 конкретных проблем и пункт «Другое», куда респондент мог внести любую другую свою проблему. Представление о характере проблем может дать «урезанный» список:

1.Открыть новое дело

2.Решить проблему со сдачей отчетности

.........................................................................

8.Обеспечить нужное судебное решение

.........................................................................

16. Купить место в органе представительной власти

Другой пример взят из проекта 2005 г. (опрос граждан). Вся выборка содержала 3100 респондентов. По серии вопросов с номерами 20–27 были выделены 1703 респондента, которые попадали в коррупционную ситуацию и информативно ответили на вопрос о том, дали они в этой ситуации взятку или нет (некоторые респонденты из попадавших в коррупционную ситуацию об этом «умолчали»). Приведем следующую таблицу частот (процент и суммарный размер выборок), полученную по данным опроса:

Таблица 1.2.1. Распределение по проблемам респондентов, давших и не давших взятку, и в сумме (в последней строке столбцов «Да», «Нет» и «Всего» — размеры выборок)

Проблемы, которые решает респондент

«Да»

«Нет»

Всего

 

 

 

 

 

1

Получение бесплатной медицинской помощи

27,04

18,82

23,19

 

 

 

 

 

2

Дошкольные учреждения (поступление, обслуживание и т.п.)

3,53

2,01

2,82

 

 

 

 

 

3

Школа: поступление, обучение, «взносы», «благодарности» и т.п.

3,42

2,51

2,99

 

 

 

 

 

4

Вуз: поступить, перевестись, экзамены, диплом и т.п.

14,02

9,28

11,80

 

 

 

 

 

5

Пенсии: оформление, пересчет и т.п.

0,77

3,64

2,11

 

 

 

 

 

6

Социальные выплаты: оформление прав, пересчет и т.п.

2,87

7,40

4,99

 

 

 

 

 

7

Решение проблем в связи с призывом на военную службу

2,87

1,88

2,41

 

 

 

 

 

8

Работа: получить нужную, обеспечить продвижение по службе

4,53

9,54

6,87

 

 

 

 

 

9

Земельный участок: приобрести и (или) оформить право на него

2,65

2,89

2,76

 

 

 

 

 

10

Жилплощадь: получить и (или) оформить юридически и т.п.

5,41

8,53

6,87

 

 

 

 

 

90

ГЛАВА 1. МЕТОДЫ ИССЛЕДОВАНИЯ

Таблица 1.2.1. Продолжение

11

Получить услуги по ремонту, эксплуатации жилья

3,31

8,16

5,58

 

 

 

 

 

12

Добиться справедливости в суде

2,65

3,89

3,23

 

 

 

 

 

13

Получить помощь и защиту в милиции

3,20

3,01

3,11

 

 

 

 

 

14

Получить регистрацию, паспорт, разрешение на оружие и т.п.

4,86

5,77

5,28

 

 

 

 

 

15

Урегулировать ситуацию с автоинспекцией

14,46

7,40

11,16

 

 

 

 

 

16

Зарегистрировать сделки с недвижимостью

2,43

2,51

2,47

 

 

 

 

 

17

Другое

1,99

2,76

2,35

 

 

 

 

 

 

Распределение респондентов по ответам о даче взятки

906

797

1703

 

 

 

 

 

Когда мы ставим задачу сравнения частот в широком контексте, без ее уточнения, то ответов на нее может быть много, и они могут иногда казаться противоречивыми. Какова же вариантность этой задачи в целом?

Задача 1. Одна из первых и сравнительно простых задач состоит в проверке гипотезы о том, что распределение частот для той группы респондентов, которая сказала «Да», не отличается от распределения частот для тех, кто сказал «Нет». Это сравнение двух распределений частот на одной и той же группе объектов (в нашем случае объектами являются проблемы, с которыми люди идут к чиновнику).

Задача 2. Другая задача — дать попарное сравнение всех частот и выделить из них те пары, для которых вероятность фактически наблюдаемого различия слишком мала при гипотезе об априорном равенстве их истинных частот

(меньше выбранной доверительной вероятности α, например, для α = 0,01).

Эта задача гораздо сложней, и ее абсолютно точное решение, насколько нам известно, до сих пор программно не обеспечено. Однако возможно почти точное решение, и оно нами реализовано в среде Excel.

Задача 3. Наконец, мы могли бы поставить задачу о степени различия разных пар. Поясним это подробнее. Пусть имеются две относительные частоты P и Q (в %), которые получены для одного и того же объекта в двух «экспериментах» с M и N испытаниями в них соответственно. И пусть P > Q. Тогда мы для неизвестных нам истинных частот P0 и Q0 (вероятностей, заданных в процентах) можем попытаться найти нижнюю доверительную границу для разности P0 Q0 с заданным уровнем доверия α, то есть установить неравенства P0 Q0 > , выполняемое с вероятностью β = 1 –α. Эта задача имеет следующий уровень сложности своего решения, и мы полагаем, что ее в большинстве социологических исследований можно не ставить, а значит, и не решать. В наших исследованиях мы эту задачу не решаем.

Теоретические основы для решения поставленных задач

Имеется два распределения частот (в процентах): Р(1), Р(2), …, Р(k) и Q(1), Q(2), …, Q(k) для объектов в двух экспериментах с размерами выборок M и

91

РОССИЙСКАЯ КОРРУПЦИЯ: УРОВЕНЬ, СТРУКТУРА, ДИНАМИКА. ОПЫТ СОЦИОЛОГИЧЕСКОГО АНАЛИЗА

N. В общем случае мы считаем, что истинные частоты равны Р0(1), Р0(2), …, Р0(k) и Q0(1), Q0(2), …, Q0(k), причем суммы частот во всех случаях равны 100%, например, Q0(1) + Q0(2) + … + Q0(k) = 100.

Взадаче 1 проверяется гипотеза S = [Р0(1) — Q0(1)]2 + … + [Р0(k) — Q0(k)]2 = 0 (истинные частоты в обоих экспериментах попарно совпадают). Альтернативной гипотезойявляетсянеравенствоS > 0,тоестьпризнаниетогофакта,чтохотябыодна из частот значимо отличается от истинной частоты (вероятности «объекта» в %).

Взадаче 2 решается k отдельных подзадач: для каждого s {1; 2; …; k} про-

веряется гипотеза о том, что Р0(s) = Q0(s). Альтернативой в этом случае является неравенство между этими истинными частотами, причем в форме

Р0(s) > Q0(s), если Р(s) > Q(s), и в форме Р0(s) < Q0(s), если Р(s) < Q(s). Ниже мы кратко описываем способы решения этих задач.

Задача 1. Пусть F(s), s {1; 2; …; k} — некоторое распределение частот (в процентах) на k объектах. Тогда проверить гипотезу о выполнении равенств F(s) = P0(s) при альтернативной гипотезе, состоящей в том, что F(s) ≠ P0(s) хотя бы при одном каком-нибудь s {1; 2; …; k}, можно с помощью статистики критерия χ2 (хи-квадрат)

χ2k-1 =

M

· r

(P(s) – F(s))2

(1.2.1)

100

F(s)

 

s=1

 

Распределение этой статистики сходится к хи-квадрат распределению с

(k–1) степенями свободы при М → +∞. К сожалению, мы не знаем истинных

F(s), s {1; 2; …; k}. Это приводит к тому, что мы должны использовать другую формулу, которая не зависит от истинных частот в явном виде. Итак, пусть

χ2k-1[M, N]=

MN

· k

(P(s) – Q(s))2

(1.2.2)

 

 

100

s=1 M · P(s) + N · Q(s)

 

Эта статистика обладает тем же свойством: ее распределение сходится к хи-квадрат распределению с (k–1) степенями свободы при условии М → +∞. Для «любопытных» можно сослаться на широко распространенную книгу по статистике среди биологов и медиков: В.Ю. Урбах. Биометрические методы, М.: «Наука», 1964, формула (6.4).

Теперь, задав доверительную вероятность α, мы находим критическое значение Х(1–α|k–1), т.е. квантиль уровня (1–α) хи-квадрат распределения с (k–1) степенями свободы, и сравниваем с ним значение статистики χ2 [M, N]:

Если χ2k-1[M, N] ≥ Х(1–α|k–1), то мы гипотезу о равенстве истинных

частот в двух анализируемых экспериментах отвергаем и утверждаем, что мы можем ошибаться в выводах не более, чем с вероятностью α.k-1

92

ГЛАВА 1. МЕТОДЫ ИССЛЕДОВАНИЯ

Если же χ2k-1[M, N] < Х(1–α|k–1), то гипотеза не отвергается, поскольку недостаточно мала вероятность получения этого неравенства (она больше α).

К этому надо добавить ряд замечаний. Во-первых, этот критерий является приближенным, поэтому для гарантии полезно работать с достаточно маленькими α, не более 0,01. И для контроля можно вычислять оценку вероятности α[M,N] = P{χ2k-1[M, N] ≥ Х(1–α|k–1)} самого неравенства. Это можно осуществить в среде Excel по следующей формуле. Вызовем список статистических формул, найдем «ХИ2РАСП» и откроем ее. В появившемся окне в строку для «Х» надо вставить значение χ2k-1[M, N], а в строку «СТЕПЕНИ_СВОБОДЫ» проставить число (k–1) и нажать «ОК». В нашем примере (таблица 1) при сравнении столбцов «Да» и «Нет» мы получим по формуле (1.2.2), что χ2k-1[M, N] = 122,92 при k = 17 (16 степеней свободы). Вычисление в Excel дает значение α[M,N] = 1,5 10–18 — слишком маленькое число, чтобы можно было сомневаться в существенном различии распределения частот в этих столбцах. И действительно, если выбрать α = 0,001 (как говорят технологи, выбрать уровень надежности в «три девятки»), то критическое значение Х(0,001|16) при 16 степенях свободы чуть меньше 40 (39,252), что намного меньше вычисленного, так что и без подсчета α[M, N] мы заведомо бы отвергли гипотезу о равенстве истинных частот.

Во-вторых, следует предупредить пользователей, что этот критерий может давать ошибочные результаты, если сравниваются два набора частот, полученных в физически зависимых экспериментах. Например, когда совокупность

частот не является распределением (для иллюстрации — множественные

вопросы). Или когда один эксперимент является подвыборкой другого. Для иллюстрации этого мы в таблицу 1.2.1 добавили столбец «Всего»: столбцы «Да» и «Нет» являются его подвыборками, так что сравнивать частоты из них с частотами из «Всего» некорректно, хотя формально это можно сделать.

Наконец, надо иметь в виду, что выводы на основе хи-квадрат критерия могут оказаться весьма спорными, когда min {M; N} составляет всего несколько десятков (желательно иметь больше 100) или когда наименьшее из чисел M P(s)/100 и N Q(s)/100 при каком-нибудь s {1; 2; …; k} окажется слишком маленьким (желательно, чтобы оно превышало 5). В нашем случае все M P(s)/100 и N Q(s)/100 не меньше 15-ти, кроме одного числа в столбце «Да»

~

(строка «Пенсии: оформление, пересчет и т.п.»), для которого M P(s)/100 =7. Задача 2. В преддверии анализа этой задачи сразу сделаем пару преду-

преждений. Дело в том, что выводы о результатах попарного сравнения всех частот, т.е. для всех s {1; 2; …; k}, часто оказываются не независимыми друг от друга. Для понимания этого лучше всего взять k = 2. Тогда, так как

P(2) = 100 – P(1) и Q(2) = 100 – Q(1), из-за равенства P(1) – Q(1) = Q(2) – P(2)

совершенно очевидно, что «различие» между частотами в первой паре ровно такое же, как и во второй. Другими словами, статистики для выявления разли-

93

РОССИЙСКАЯ КОРРУПЦИЯ: УРОВЕНЬ, СТРУКТУРА, ДИНАМИКА. ОПЫТ СОЦИОЛОГИЧЕСКОГО АНАЛИЗА

чий заведомо будут сильно зависимыми величинами. Более того, для k = 2 доверительная вероятность совместного утверждения о различиях в каждой из пар будет той же, что при сравнении каждой пары.

Но это не так с ростом k, а именно, рассчитываемые статистики оказываются почти независимыми, т.е. коэффициенты корреляции между ними стремятся к нулю при k → +∞, однако они остаются совместно зависимыми, множественный коэффициент корреляции одной из статистик со всеми оставшимися высоко значимо отличен от нуля. И все же в силу слабой корреляционной зависимости суммарный вывод, соединяющий все частные результаты о наличии или отсутствии различий в отдельных парах частот, будет выполняться не с доверительной вероятностью α, принятой для сравнения пар, а с доверительной вероятностью αsum , так что это следует учитывать при выборе исходного значения α.

Во многих руководствах по статистике предлагается эту задачу сводить к проверке гипотезы о равенстве средних по выборкам разного размера в предположении, что каждая из них порождена величинами, подчиняющимися нормальному распределению. А именно, так как распределение

ξM(s) =

(P(s) – P0(s)) · M

в силу центральной предельной теоремы при боль-

P0(s) · (100 – P0(s))

 

x

ших М сближается со стандартным гауссовским распределением, Φ(x) = φ(u)du,

–∞

где, φ(u)= 21π exp {u22}, то можно воспользоваться этим для построения

критерия. Мы не будем разбирать этот подход, поскольку он мало пригоден в наших условиях. Суть проблемы в том, что нормальная аппроксимация не годится, когда MP(s)/100 или NQ(s)/100 находятся в пределах одного-двух десятков, причем большие значения М не спасают. А для социологических опросов характерна высокая вариабельность этих величин в пределах одного «эксперимента», например, в нашей таблице значения MP(s)/100 варьируют от 7 до 245.

Зафиксируем одно из s {1; 2; …; k} и обозначим через Ω(s) событие, состоящее в том что выбран s-й объект. Тогда целые числа m(s) и n(s), равные1 соответственно величинам MP(s)/100 и NQ(s)/100, можно рассматривать как число реализаций события Ω(s) в 1-м и 2-м экспериментах соответственно. В нашем примере m(s) = MP(s)/100 — это число респондентов, которые в коррупционной ситуации дают взятки (сказали «Да») и для которых такая ситуация возникла при решении s -й проблемы.

1Конечно, из-за округлений при расчетах частот P(s) и Q(s) значения MP(s)/100 и NQ(s)/100 могут оказаться чуть отличающимися от целых величин, поэтому их надо округлить до ближайшего целого.

94

ГЛАВА 1. МЕТОДЫ ИССЛЕДОВАНИЯ

Мы предположим теперь, что P(s) ≥ Q(s). Тогда наша задача — выяснить, сколь мала вероятность того, что при равных истинных частотах P0(s) = Q0(s) события Ω(s) разность между фактически наблюдаемыми частотами больше или равна P0(s) — Q0(s). Поскольку величины P(s) и Q(s) порождены в достаточно простой полиномиальной модели, то для них легко построить доверительные границы1: нижнюю для P(s) и верхнюю для Q(s) с любым значением доверительной вероятности. Так, если β(λ; a, b) — квантиль уровня λ для «бета» распределения с целыми a и b, т.е. корень уравнения

(a + b – 1)!

z

 

 

 

a–1

b–1

(a – 1)!(b – 1)!

0

t

(1 – t) dt= λ

относительно z, то p’(α’) = β(α’; m(s), Mm(s) + 1) является нижней границей для P(s)/100 с доверительной вероятностью α’. Далее, p’’(α’’)=β(1–α’’; n(s)+1, Nn(s)) является верхней границей для Q(s)/100 с доверительной вероятностью α’’. Теперь мы уже могли бы утверждать, что с вероятностью α = α’ + α’’ можно считать, что одновременно выполнены два неравенства: P(s) ≥ 100 · p’(α’) и 100 · p’’(α’’) ≥ Q(s), следовательно, если выполняется неравенство p’(α’) > p’’(α’’), то гипотезу о равенстве истинных частот мы можем отвергнуть с доверительной вероятностью α. Но есть одно «но».

Дело в том, что зазор между p’(α’) и p’’(α’’) может меняться без изменения доверительной вероятности α = α’ + α’’ в зависимости от выбора слагаемых α’ и α’’. Если положить α’ = θ · α и α’’ = (1−θ) · α, то α = α’ + α’’ каким бы

ни было θ

 

(0; 1), и нам надо было бы подобрать такое θ, чтобы макси-

 

мизировать

разность p’(θ · α) – p’’((1– θ) · α). Другими словами, если

(α) = max[p’(θ · α) – p’’((1– θ) · α)], то критерий следующий:

0<θ<1

Если (α) > 0, то мы гипотезу о равенстве истинных частот в двух анализируемых экспериментах отвергаем и утверждаем, что мы можем ошибаться в выводах не более, чем с вероятностью α.

Если же (α) ≤ 0, то гипотеза не отвергается, поскольку недостаточно мала вероятность получения этого неравенства (она больше α).

Это верно, если P(s)≥Q(s). Если же P(s)<Q(s), то решение будет таким же, но

с по-другому определенным зазором. А именно, пусть p’’(α’) = β(1 – α’; m(s)+1,Mm(s)) является верхней границей для P(s)/100 с доверительной вероятностью α’ = θ·α. Далее, пусть p’(α’’)=β(α’’;n(s),Nn(s)+1) является нижней границей для Q(s)/100 с доверительной вероятностью α’’=(1−θ). И пусть

~(α) =max[p’((1−θ) ·α)–p’’(θ·α)]. Тогда критерий будет абсолютно тем же,

0<θ<1

лишь (α) надо заменить величиной ~(α). Различие лишь в том, что при отвер-

1Формулы взяты из книги Большев Л.Н., Смирнов Н.В. Таблицы математической статистики. М. : Наука, 1983, разделы 3.4 (стр. 29) и 5.2 (стр.69).

95

РОССИЙСКАЯ КОРРУПЦИЯ: УРОВЕНЬ, СТРУКТУРА, ДИНАМИКА. ОПЫТ СОЦИОЛОГИЧЕСКОГО АНАЛИЗА

жении гипотезы в первом случае мы говорим, что P0(s) больше Q0(s), а во втором, наоборот, Q0(s) значимо больше Р0(s), и вероятность нашей ошибки меньше α.

Фактически нашу задачу мы свели к вычислению величин (α) и ~(α), но прямой формулы для выбора максимизирующего θ у нас нет. Поэтому для поиска решения надо либо использовать специальные вычислительные процедуры, либо найти хорошую аппроксимацию. Второй путь предпочтительней, если он оказывается реализуемым. Так вот, оказалось, что существует совершенно замечательная аппроксимация для θ:

~

N

 

θ=

 

(1.2.3)

 

M + N

Ее эвристическое «обоснование» состоит в том, что точности статистиче-

ских оценок с точностью до констант пропорциональны числам

1

и

1

в

 

M

 

N

выборках размера М и N соответственно. То есть для «выравнивания» различий в отклонениях нижних и верхних доверительных границ в выборках разного размера θ надо выбрать так, чтобы θ и 1 – θ относились между собой

также как числа 1 и 1 . Отсюда и следует (1.2.3).

MN

Это эвристическое решение было проверено нами на целой серии реаль-

ных данных и в модельных примерах. Оказалось, что отклонение значений

~ ~

(α) и (α) от вычисленных по приближенным формулам с θ не превосходит значения max (M1 ; N1 ) и, как правило, существенно меньше. Вот расчеты для нашего примера.

Таблица 1.2.2. Результаты1) решения задачи 2 для данных из таблицы 1

 

α = 0,05

 

 

α= 0,005

 

 

α= 0,001

 

п/п

 

 

 

 

 

 

 

 

 

Тест

Зазор

Тысячные

Тест

Зазор

Тысячные

Тест

Зазор

Тысячные

 

 

 

 

 

 

 

 

 

 

 

1

Да

0,025

0,006

Да

1E–04

0,011

Нет

–0,014

0,015

 

 

 

 

 

 

 

 

 

 

2

Нет

–0,008

0,056

Нет

–0,018

0,105

Нет

–0,024

0,157

 

 

 

 

 

 

 

 

 

 

3

Нет

–0,015

0,099

Нет

–0,025

0,17

Нет

–0,031

0,216

 

 

 

 

 

 

 

 

 

 

4

Да

0,003

0,012

Нет

–0,016

0,008

Нет

–0,026

0,019

 

 

 

 

 

 

 

 

 

 

5

Да

0,009

0,006

Да

4E-04

0,009

Нет

–0,004

0,046

 

 

 

 

 

 

 

 

 

 

6

Да

0,015

0,009

Да

0,002

0,006

Нет

–0,005

0,01

 

 

 

 

 

 

 

 

 

 

7

Нет

–0,012

0,094

Нет

–0,021

0,178

Нет

–0,027

0,225

 

 

 

 

 

 

 

 

 

 

96

ГЛАВА 1. МЕТОДЫ ИССЛЕДОВАНИЯ

Таблица 1.2.2. Продолжение

8

Да

0,015

0,007

Да

3E–04

0,006

Нет

–0,008

0,011

 

 

 

 

 

 

 

 

 

 

9

Нет

–0,021

0,162

Нет

–0,03

0,249

Нет

–0,036

0,298

 

 

 

 

 

 

 

 

 

 

10

Нет

–0,004

0,008

Нет

–0,019

0,019

Нет

–0,027

0,051

 

 

 

 

 

 

 

 

 

 

11

Да

0,017

0,01

Да

0,003

0,005

Нет

–0,004

0,011

 

 

 

 

 

 

 

 

 

 

12

Нет

–0,013

0,061

Нет

–0,023

0,133

Нет

–0,029

0,158

 

 

 

 

 

 

 

 

 

 

13

Нет

–0,023

0,157

Нет

–0,033

0,246

Нет

–0,039

0,28

 

 

 

 

 

 

 

 

 

 

14

Нет

–0,022

0,063

Нет

–0,035

0,129

Нет

–0,042

0,153

 

 

 

 

 

 

 

 

 

 

15

Да

0,028

0,003

Да

0,01

0,009

Нет

–6E–04

0,011

 

 

 

 

 

 

 

 

 

 

16

Нет

–0,021

0,185

Нет

–0,03

0,291

Нет

–0,035

0,335

 

 

 

 

 

 

 

 

 

 

17

Нет

–0,014

0,114

Нет

–0,023

0,194

Нет

–0,028

0,252

 

 

 

 

 

 

 

 

 

 

1)Пояснения к таблице: № п/п — номера «событий», проблем, при решении которых респондент попадал в коррупционную ситуацию, Тест — в этих столбцах проставлено слово «Да», если принимается решение о различии частот в двух выборках для соответствующего строке «события», и слово «Нет», если гипотезу о равенстве частот мы не можем отвергнуть, Зазор — величина между нижней доверительной границей для бóльшей из двух относительных частот и верхней границей для меньшей относительной частоты с указанной доверительной вероятностью, Тысячные — умноженная на 1000 (!!!) абсолютная величина разности между точным и приближенным значениями зазора.

В заключение обратим внимание на то, что при α = 0,001 мы не обнаруживаем значимых различий между хотя бы одной парой частот, тогда как хи-квадрат критерий дает крайне высокую значимость о различии распределений. Дело в том, что различия между частотами в хи-квадрат накапливаются: «С

миру по нитке — бедному рубаха!». Подобный эффект в статистике наблюдает-

ся весьма часто.

АНАЛИЗ СОПРЯЖЕННОСТЕЙ

Анализ сопряженностей — главный инструмент изучения зависимостей между номинальными (классификационными) переменными. Краткое описание этого метода мы предварим важным для его понимания определением независимости простых событий.

Пусть есть два простых события А и В (простые, значит у каждого из них есть только две возможности — произойти либо не произойти). Пусть, кроме того, символом АВ будет обозначаться произведение двух наших событий, т.е. событие, состоящее в том, что одновременно произошло и А, и В. Пусть теперь Р(А), Р(В) и Р(АВ) — вероятности событий А, В и АВ соответственно. Тогда простые события А и В мы будем называть независимыми, если для трех указанных вероятностей выполняется равенство:

P(AB) = P(A)P(B).

(1.2.4)

97

РОССИЙСКАЯ КОРРУПЦИЯ: УРОВЕНЬ, СТРУКТУРА, ДИНАМИКА. ОПЫТ СОЦИОЛОГИЧЕСКОГО АНАЛИЗА

Часто это соотношение словесно выражают следующим образом: «Вероятность произведения независимых событий равна произведению вероятностей этих событий», хотя это всего лишь следствие определения независимости между событиями.

Почему определение независимости именно таково? Проще всего его объяснить через условные вероятности. Мы знаем, что числа Р(А), Р(В) и Р(АВ) можно рассматривать как относительные частоты реализации событий А, В и АВ в серии из N физически независимых испытаний, так что примерно NP(A) раз произойдет событие А, NP(В) и NP(AВ) раз — события В и АВ соответственно. Следовательно, относительная частота события А среди тех случаев, когда происходило событие В (при условии В), равна примерно

[NP(AВ)]/[NP(В)] = P(AB)/P(B).

Это объясняет определение условной вероятности P(A|B) события А при условии осуществления события В равенством P(A|B) = P(AB)/P(B).

Так вот, независимость события А от события В — это отсутствие всякого влияния В на вероятность реализации события А, то есть условная вероятность P(A|B) должна при независимости точно совпадать с исходной вероятностью P(A) события А, т.е. должно выполняться равенство P(A) = P(A|B) = P(AB)/P(B). Но из этого следует равенство (1) и, тем самым, равенство

P(В|А) = P(AB)/P(А) = [Р(А)Р(В)]/Р(А) = Р(В), т.е. если событие А не зави-

сит от В, то и событие В не зависит от А.

Соотношение (1) может быть переписано в другом виде:

P(AB) – P(A)P(B) = 0.

(1.2.5)

Если равенство нулю разности в левой части равенства (1.2.5) свидетельствует о независимости, то отличие от нуля этой разницы мы можем рассматривать как свидетельство зависимости. И чем больше (по абсолютной величине) эта разница, тем больше зависимость.

Теперь рассмотрим пример конкретной таблицы сопряженности, используя данные какого-либо социологического опроса (таблица 1.2.3).

В этом примере во внутренних клетках таблицы сопряженности стоят абсолютные частоты числа наблюдений одновременного осуществления двух простых событий (их произведения). Мы полагаем, что все ответы на вопрос Q1 «Что бы вы могли сказать о своем настроении в последние недели?» состоят из пяти простых событий вида: «Выбран ответ "1. Настроение хорошее, уверенное"», «Выбран ответ "2. Есть заботы, но в целом настроение ровное, спокойное"», … , «Выбран ответ "5. Затрудняюсь ответить"». А все ответы на вопрос Q5 «В целом, как вы считаете, дела в стране движутся в правильном или в неправильном направлении?» состоят из трех простых событий вида: «Выбран ответ

98

ГЛАВА 1. МЕТОДЫ ИССЛЕДОВАНИЯ

"1. В правильном направлении"», «Выбран ответ "2. В неправильном направлении"», «Выбран ответ "3. Затрудняюсь ответить"». Значит, число 300, стоящее в клетке на пересечении второй строки и первого столбца, означает, что произведение двух событий {На вопрос Q1 выбран ответ «2. Есть заботы, но в целом настроение ровное, спокойное»} и {Hа вопрос Q5 выбран ответ «1. В правильном направлении»} отмечено в выборке 300 раз.

Таблица 1.2.3. Пример таблицы сопряженности (абсолютные частоты) между ответами на два опроса анкеты в стандартной форме

 

 

 

 

Q5. В целом, как вы считаете, дела в стране движутся

 

 

 

 

 

в правильном или в неправильном направлении?

Общая

 

 

 

 

1. В правильном

2. В неправильном

3. Затрудняюсь

сумма

 

 

 

 

направлении

направлении

ответить

 

 

 

 

 

 

 

 

сказать о

последние

1. Настроение хорошее,

94

28

32

154

 

уверенное

 

 

 

 

 

 

 

 

 

 

 

2.

Есть заботы, но в целом

 

 

 

 

 

настроение ровное, спо-

300

155

221

676

Q1. Что бы вы могли

своем настроении в недели?

 

 

койное

 

 

 

 

 

 

 

 

 

 

3.

Испытываю беспокой-

71

95

76

242

 

ство, раздражение

 

 

 

 

 

 

 

 

 

 

 

4.

Испытываю тревогу,

19

31

11

61

 

страх

 

 

 

 

 

 

 

 

 

 

 

5.

Затрудняюсь ответить

3

6

9

18

 

 

 

 

 

 

 

 

 

Общая сумма

487

315

349

1151

 

 

 

 

 

 

 

 

Внешние клетки таблицы сопряженности (нижняя строка и правый столбец, не считая правой нижней угловой клетки) содержат абсолютные частоты событий. Например, первая клетка нижней строки содержит число 487. Это значит, что 487 респондентов в ответе на вопрос Q5 выбрало ответ «1. В правильном направлении». Число 487явяляется суммой чисел во всех клетках одного столбца над клеткой с числом 487. Во второй сверху клетке правого столбца содержится число 676. Это значит, что 676 респондентов выбрало ответ «2. Есть заботы, но в целом настроение ровное, спокойное» при ответе на вопрос Q1. Число 676 является суммой чисел во всех внутренних клетках второй строки левее клетки с числом 676.

Осталось рассмотреть одну клетку таблицы — правую нижнюю. Она содержит число 1151 — общее число респондентов, по которым рассчитывалась данная таблица сопряженности. Число 1151 есть сумма чисел во всех внутренних клетках таблицы. Оно же есть сумма чисел во всех клетках нижней строки левее угловой. Оно же есть сумма чисел из всех клеток правого столбца выше угловой.

Таблицу сопряженности, содержащую абсолютные частоты, можно назвать таблицей сопряженности в стандартной форме, но таблицы сопряженности

99