Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
курсовая Ксю.doc
Скачиваний:
33
Добавлен:
13.07.2019
Размер:
205.82 Кб
Скачать

Результаты расчетов

Бинарная логистическая регрессия на основе показателей обилия групп

Сформируем выборку для построения бинарной логистической модели следующим образом:

  • в качестве отклика Y примем альтернативу 0 (“чисто”), куда отнесем измерения, сделанные на станциях с классом качества вод 3 и менее, и 1 (“грязно”), соответствующую классу 4 и выше;

  • в качестве варьируемых переменных примем общее число видов X1 = S и показатели обилия отдельных семейств зообентоса (для хирономид -подсемейств и триб); Xj = ln((Nsj Bsj)0.5), Nsj и Bsj – суммарные по видам численность и биомасса j-й таксономической группы в пробе, j = 2,3,…,51.

Полученное уравнение логистической регрессии оказалось значимым с позиций статистики отношения правдоподобия – χ2(50) = 225.9, p  0.0, а коэффициент детерминации псевдо-R2 составил 33.6%. Верхняя часть списка коэффициентов регрессии, отсортированного по убыванию t-статистики, представлена в табл. 8.4. Большинство рассчитанных коэффициентов имеют отрицательный знак, т.е. чем меньше обилие гидробионтов этих семейств, тем больше шанс, что проба взята из водоема “грязной” категории. Достоверная связь обратного характера наблюдается только для организмов Oligochaeta и Odonata.

 

Гистограмма распределения примеров выборки по шкале прогнозируемой вероятности класса 1 (“грязно”) представлена на рис. 8.3. Если принять в качестве порогового значения Р = 0.5, то к классу “грязных” объектов относят значения Xi , для которых > 0.5, и тогда общая ошибка предсказания по уравнению регрессии составит менее 20%. Это правило оптимально с точки зрения минимизации числа ошибок, но не всегда верно с точки зрения исследования связи и поэтому порог зачастую сдвигают в сторону класса с минимальной априорной вероятностью встречаемости.

Множественный пробит-анализ по обобщенным показателям

Используем упорядоченный пробит-анализ для непосредственной оценки значения класса качества водоемов в виде числа от 1 до 6. Сформируем выборку из тех же 520 измерений, но в качестве девяти варьируемых переменных будем использовать различные обобщенные гидробиологические показатели и традиционные "интегральные" индексы, перечисленные в табл. 8.5.

С чисто статистической точки зрения было рассчитано вполне благополучное уравнение упорядоченного пробита: критерий χ2(9) для статистики отношения правдоподобия составил 257.1 при p  0.0, коэффициент детерминации псевдо-R2 равен 42.3%.

Однако анализ уровня значимости коэффициентов пробит-уравнения, представленных в таблице 8.5, показывает, что вполне достоверно связаны с классом качества лишь число видов в пробе, биотический индекс Вудивисса (обратная зависимость) и олигохетный индекс (прямая зависимость).

Упорядоченный пробит представляет собой вероятностную модель, согласно которой попадание в группу, соответствующую каждому классу качества водоема представляет собой случайное событие. Вероятность P(k|xi1,xi2,…,xip) принадлежности i-го измерения к k-му классу (вернее, вероятность попадания в интервал между границами классов) вычисляется по усеченному нормальному распределению, и при этом предполагается, что к расчетному значению прибавляется стандартная нормальная случайная величина. Графики этих вероятностей и граничные значения классов качества вод для полученного нами уравнения упорядоченного пробита изображены на рис. 8.4. В качестве прогноза для каждого наблюдения берется та группа, вероятность P(k|xi1,xi2,…,xip) для которой наибольшая

Задача состоит в том, чтобы по пяти параметрам (учет в ГИБДД,

наличие номера кузова, наличие номера двигателя, год выпуска, срок эксплуатации (лет)) сделать выбор принимать на страхование автомобиль или нет.

Имеются следующие параметры:

x1 – учет в ГИБДД – фиктивный фактор: если автомобиль состоит на учете, то x1 = 1, иначе x1 = 0.

x2 – наличие номера кузова - фиктивный фактор: при наличии номера кузова т x2 = 1, иначе x2 = 0.

x3 – наличие номера двигателя - фиктивный фактор: при наличии номера двигателя x3 = 1, иначе x3 = 0.

x4 – год выпуска - фиктивный фактор: если год выпуска установлен, то x4 = 1, иначе x4 = 0.

х5 – срок эксплуатации – дискретный фактор

На выход получаем (решение, принятое специалистами на основании собственного опыта):

y=0 – если автомобиль не принимается на страхование;

y=1 – если автомобиль принимается на страхование.

В данной модели рассматриваются 50 автомобилей.

Исходные данные (21 автомобиль) приведены на Рис. 1.