Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Lektsii_po_ISU (1).doc
Скачиваний:
28
Добавлен:
17.11.2019
Размер:
980.48 Кб
Скачать

Согласование оценок

Значимость полученной групповой оценки в большой степени определяется согласованностью индивидуальных оценок экспертов. В связи с этим встает вопрос об определении приемлемой меры согласованности, а также о разработке методов и процедур повышения согласованности мнений экспертов, если она недостаточна.

Для оценок, полученных в номинальной шкале, вопрос об оценке согласованности можно решить достаточно просто, например, путем различных модификаций правила большинства (если данное мнение принято большинством менее чем в 2/3 голосов, то такая согласованность считается недостаточной, соответственно, оценка не является значимой, необходимо провести повторную экспертизу).

Для оценки согласованности численных оценок рассчитываются различные статистические величины - дисперсия, СКО, коэффициент вариации. При этом, как правило, рассчитывается несмещенная оценка дисперсии, т.е. оценки экспертов рассматриваются, как случайная выборка*:

где - дисперсия,

xj – оценка, данная j–м экспертом,

– среднее арифметическое оценок, данных различными экспертами,

m - число экспертов.

Среднее квадратическое отклонение, в отличие от дисперсии, является величиной, имеющей те же единицы измерения, что и сама оценка (дисперсия измеряется в квадратах этих единиц):

где - среднее квадратическое отклонение.

Коэффициент вариации представляет собой относительный показатель, не имеющий единиц измерения, позволяющий сравнивать среднеквадратическое отклонение со средней оценкой (оценить, велико это отклонение или мало в масштабах данных оценок):

где - коэффициент вариации.

Е

½ пары

сли подходить к оценкам, как к случайной выборке, учитывать компетентность экспертов бессмысленно. Ее можно учесть, если рассматривать экспертов, как генеральную совокупность, и соответственно, рассчитывать дисперсию для генеральной совокупности (причем относительно не простого, а взвешенного среднего)*, а через нее СКО и коэффициент вариации.

Мнения экспертов можно считать согласованными, если значения этих показателей не выходят за рамки предварительно заданных граничных значений, например, коэффициент вариации составляет не более 0.1.

Например, пусть трем экспертам предложено оценить по трехбалльной шкале экономическую эффективность одного из методов реорганизации (например, метода Д). Граничное значение коэффициента вариации примем равным 0.25.

Эксперт

Оценка

Петров

2

1/3

1/9

Сидоров

2

1/3

1/9

Кузнецов

3

- 2/3

4/9

Сумма

7

2/3

= 7/3 = 2 1/3; = (2/3) / 2 = 1/3; 0.58; 0.25. Поскольку граничное значение не превышено, будем считать оценки согласованными (хотя стоит отметить, что само это значение не так уж мало).

Другой метод оценки согласованности – использование статистического критерия (“хи-квадрат”).

Предполагается, что полностью несогласованные оценки распределены равномерно по всей шкале, т.е. на каждую градацию приходится равное количество оценок m/L, где m – число экспертов, L - число градаций в используемой шкале. В рассмотренном примере равномерное распределение соответствовало бы одной оценке в каждой градации (3/3 = 1), т.е. оно имело бы место, если бы каждый балл – 1, 2 и 3 – поставило бы по одному эксперту из трех.

На самом деле в каждую j–ю градацию попало mj оценок ( ). В данном примере m1=0 (никто не поставил 1 балл), m2=2 (2 балла поставили 2 эксперта), m3=1 (3 балла поставил 1 эксперт).

Подсчитаем сумму квадратов относительных отклонений частот m/L от частот mj - . Чем эта величина больше, тем с большей уверенностью можно утверждать, что оценки согласованы (их частоты отличаются от частот при равномерном распределении). Данная величина подчиняется - распределению с числом степеней свободы L-1.

На самом деле, данный критерий считается приемлемым в том случае, если значения ожидаемых при нулевой гипотезе о равномерном распределении частот не менее 5, а не 1, как в данном примере; тем не менее, для упрощения вычислений, рассмотрим тот же самый пример с данной оговоркой.

С некоторой вероятностью рассчитанная величина может оказаться больше реальной случайно, и тогда мы сделаем неправильный вывод о согласованности оценок. Поэтому задают малое значение этой вероятности, т.е. уровень значимости. Обычно его берут равным 0.05, 0.01 или 0.001, но допустимы и более высокие значения в зависимости от ситуации.

Затем по статистическим таблицам определяют значение при заданном уровне значимости и числе степеней свободы. В данном примере при двух степенях свободы =5.991. Если полученное расчетное значение будет больше табличного, то гипотеза о равномерном распределении оценок будет отвергнута, и оценки можно считать согласованными. В противном случае оценки считают несогласованными.

В данном примере = ((0-1)2 + (2-1)2 + (1-1)2)/1 = 1 + 1 + 0 = 2 < 5.991. Более того, в статистической таблице для -распределения с двумя степенями свободы значение 2 находится примерно в середине таблицы, т.е. соответствует уровню значимости 0.5. К сожалению, это не дает возможности отвергнуть гипотезу о равномерном распределении – она может оказаться верной или неверной почти с равной вероятностью. Чтобы сделать более уверенный вывод, необходимо увеличить согласованность оценок.

Оба рассмотренных выше метода могут быть использованы только при оценке объекта по одному фактору. Если объект оценивается по нескольким факторам (по n факторам), то для измерения согласованности между оценками ДВУХ экспертов (или между отдельным экспертом и групповым мнением) рассчитывают евклидово расстояние между ними, рассматривая каждую оценку, как точку в n–мерном пространстве:

где r – расстояние между оценками двух экспертов;

n – число факторов;

xi – оценка i–го фактора одним из экспертов;

yi - оценка i–го фактора другим экспертом.

Предположим, например, что эксперты оценивают не только экономическую эффективность метода, но также и его социальную эффективность:

Эксперт

Оценка экономической эффективности

Оценка социальной эффективности

Расстояние между оценками

Петров

Сидоров

Кузнецов

Петров

2

3

2

1

Сидоров

2

1

2

2,2

Кузнецов

3

3

1

2,2

Групповая оценка*

2.36

2.36**

0.7

1.4

0.9

Расстояние между оценками Петрова и Сидорова составляет = 2. Расстояния между оценками Петрова и Кузнецова, Сидорова и Кузнецова, а также каждого из них и групповой оценкой рассчитаны аналогично.

Из данного примера видно, что мнение Сидорова наиболее значительно отличается от мнений двух других экспертов и от группового, особенно от мнения Кузнецова, мнения же Кузнецова и Петрова наиболее близки друг к другу. Петров ближе всех к групповому мнению. Поскольку оцениваются всего два фактора, данный пример можно пояснить рисунком, на котором расстояния между оценками представлены наглядно.

Е

ЛЕКЦИЯ 13

сли факторов более 2-3, оценить близость оценок визуально становится невозможно, и без расчета расстояний обойтись уже не удается. Для таких расчетов рекомендуется использовать программные средства, так как с ростом числа экспертов (m) число расстояний, которые необходимо подсчитать, существенно увеличивается (m*(m-1)/2).

С использованием данного показателя экспертов можно разбивать на группы, мнения внутри которых отличаются более высокой согласованностью по сравнению со всей групповой оценкой. Изучением таких групп занимается кластерный анализ (здесь подробно не рассматривается).

Отметим, что при использовании евклидова расстояния для измерения согласованности различные показатели будет лучше перевести в балльные шкалы с равным числом градаций, в противном случае разница в масштабе может существенно повлиять на величину расстояния. Измерить согласованность индивидуальных оценок через расстояние можно различными способами, например, путем вычисления среднего попарного расстояния, либо среднего расстояния до групповой оценки (их значения должны быть не больше заранее заданных).

Будем считать оценки в данном примере согласованными, если среднее попарное расстояние не превысит 2, а до групповой оценки – 1. Среднее попарное расстояние равно (2 + 1 +2.2) / 3= 1.73 < 2. Среднее расстояние до групповой оценки подсчитаем, как среднее взвешенное, чтобы с большими весами учесть отклонения от группового мнения наиболее квалифицированных экспертов: 0.7*0.32 + 1.4*0.32 + 0.9*0.36 = 0.996 1. Следовательно, оценки можно считать согласованными.

Для оценок, полученных в ранговой шкале, используются другие методы. Рассмотрим некоторые из них.

Для измерения согласованности полного ранжирования можно использовать коэффициент конкордации. В основе его расчета лежит идея о том, что при полной согласованности мнений экспертов дисперсия сумм рангов будет максимальной (т.е. все m экспертов дали одним и тем же объектам ранги от 1 до n, суммы рангов для каждого объекта составляют от m до m*n). Коэффициент конкордации W представляет собой соотношение двух дисперсий – дисперсию сумм рангов, которая имеет место на самом деле, делят на максимальную дисперсию. Поэтому всегда , и чем ближе коэффициент к единице, тем более высокой является согласованность мнений экспертов. Если W=0, мнения полностью рассогласованы*, при W=1 мнение экспертов является единогласным. Обычно мнения считают согласованными, если W>0.5. После всех математических преобразований (здесь не приводятся) формула для этого коэффициента принимет следующий вид (автор лекций не считает ее запоминание обязательным):

где W – коэффициент конкордации,

n - число ранжируемых объектов,

m - число экспертов,

- сумма рангов, присвоенных всеми экспертами j–му объекту (аij – ранг, который i–й эксперт приписывает j–му объекту),

– среднее арифметическое таких сумм.

Использовать эту формулу можно только если каждому эксперту удалось дифференцировать по предпочтительности все объекты, т.е. стандартизированные ранги не используются.

Например, пусть эксперты предложили следующее упорядочение:

Способы

Эксперты

А

Б

В

Г

Д

Индивидуальное ранжирование

Петров

4

3

2

5

1

Сидоров

4

3

1

5

2

Кузнецов

1

2

3

5

4

Сумма рангов Sj

9

8

6

15

7

= Sj - 9

0

-1

-3

6

-2

0

1

9

36

4

Средняя сумма рангов равна m * (n + 1) / 2 = 3 * (5 + 1) / 2 = 9; сумма квадратов отклонений сумм рангов от нее равна 0 + 1 + 9 + 36 + 4 = 50. W = 50*12 / (32 * (53 – 5)) = 0.56 > 0.5, следовательно, мнения можно считать согласованными.

Если в оценках экспертов присутствуют стандартизированные ранги, вид формулы для коэффициента конкордации несколько изменяется (обратите внимание на знаменатель формулы; автор лекций также не считает ее запоминание обязательным):

где L – число групп стандартизированных рангов;

ti – число повторяющихся рангов в i–й группе.

Пример снова рассмотрим в виде таблицы.

Способы

Эксперты

А

Б

В

Г

Д

Индивидуальное ранжирование

Петров

3.5

3.5

2

5

1

Сидоров

4

4

1.5

4

1.5

Кузнецов

1

2

3

5

4

Сумма рангов

8.5

9.5

6.5

14

6.5

= Sj - 9

-0.5

0.5

-2.5

5

-2.5

0.25

0.25

6.25

25

6.25

Сумма квадратов отклонений сумм рангов от средней суммы равна 0.25 + 0.25 + 6.25 + 25 + 6.25 = 38. В оценках Петрова имеется одна группа из двух совпадающих рангов (ранг 3.5 имеют объекты А и Б), а в оценках Сидорова – две группы из двух (В и Д имеют ранг 1.5) и трех (А, Б и Г имеют ранг 4) рангов, поэтому W = 38*12 / (32 * (53 – 5) – 3 * (23 – 2 + 23 – 2 + 33 – 3)) = 0.47 < 0.5, следовательно, мнения нельзя считать согласованными.

Р

½ пары

ассчитанные коэффициенты также должны быть проверены на статистическую значимость, поскольку их значения могут быть результатом случайного совпадения. Для проверки используется критерий Пирсона (рассчитывается по формуле W*m(n-1)), который при n>7 имеет –распределение c n-1 степенями свободы. Если его значение больше табличного, коэффициент конкордации можно считать значимым (уровень значимости обычно задают 0.05 или 0.01).

Для иллюстрации расчетов проверим значимость W=0.56 (хотя n и менее 7). Зададим уровень значимости 0.05. Число степеней свободы равно 4. Табличное значение =9.5, а для нашего примера 3*4*0.56 = 6.72 < 9.5, что означает, что и в этом случае мнения нельзя считать согласованными (коэффициент конкордации не является значимым*).

Для оценки согласованности ранговых оценок двух экспертов используют коэффициенты ранговой корреляции Спирмена или Кендалла. Формулы для расчетов здесь не приводятся, рекомендуется изучить их самостоятельно, используя учебники по статистике и экспертным оценкам, например, [5, 9].

В результате оценки согласованности мнений экспертов можно прийти к одному из трех выводов:

1) Мнения экспертов полностью рассогласованы (оценка согласованности низкая, и нельзя выделить никаких групп экспертов, близких по своим мнениям).

В этом случае результаты экспертизы не пригодны для принятия решения (в самом деле, если один из метеорологов считает, что погода будет солнечной, а другой – что будет проливной дождь, нелепо рассчитывать на некий усредненный вариант, например, легкую облачность). В зависимости от конкретной ситуации следует либо констатировать факт, признать экспертизу неудавшейся, и отказаться от проведения исследования, либо провести повторную экспертизу с учетом причин неудачи. Они могут быть следующими:

а) недостаточно корректно сформулированы цели и задачи исследования;

б) неудачно выбраны методы экспертизы;

в) неудачно построены шкалы;

г) для участников экспертизы не удалось создать подходящую обстановку (возможно, как в психологическом плане, так и в материальном);

д) время, выделенное для обсуждения, оказалось недостаточным для того, чтобы эксперты согласовали свои мнения (если метод экспертизы это предусматривает);

е) неудачно подобраны эксперты (по своим качественным и количественным характеристикам, совместимости).

Можно выявить и другие причины.

2) Оценки экспертов обособлены в несколько групп, внутри которых согласованность достаточно высока, а в целом по экспертной группе она низкая.

В этом случае логично предположить, что речь идет о различных научных школах или о различных социальных группах населения. Их мнения не всегда можно согласовать между собой даже в ходе длительной дискуссии. Целесообразно предоставить ЛПР несколько групповых оценок с соответствующими комментариями.

3) Групповая оценка характеризуется высокой согласованностью.

Такую оценку можно представить ЛПР, но в любом случае имеет смысл проанализировать наличие крайних мнений (выяснить, какой процент экспертов их придерживается, чем они обосновывают свои точки зрения, какой будет оценка согласованности, если их не учитывать). Результаты такого анализа также обычно представляют ЛПР.

Как следует из всего изложенного, ситуации, с которыми сталкивается рабочая группа при обработке групповых экспертных оценок, являются достаточно разнообразными. Поэтому при проведении экспертизы необходимо в зависимости от конкретной ситуации (целей исследования, наличия ресурсов) заранее обдумать, каким образом будет обрабатываться полученная от экспертов информация, соответствующим образом поставить перед ними задачу и обеспечить себя источниками теоретической и справочной информации для расчетов и анализа.

Рассмотрим кратко некоторые другие МАИС.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]