Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Биометрическая обработка данных на основе компь...doc
Скачиваний:
30
Добавлен:
11.11.2019
Размер:
1.7 Mб
Скачать

Раздел 6. Регрессионный анализ

Во многих практических задачах, исследующих зависимость между переменными величинами, необходимо прогнозировать значения одной переменной при заданных значениях или заданных изменениях других переменных. Эти задачи решаются на основе регрессионного анализа. Регрессия – изменение зависимой переменной (у) в зависимости от изменения одной (х) или нескольких независимых переменных (хn). Независимые переменные называются факторами или предикторами, а зависимые переменные – результативными признаками или откликами. Если число предикторов равно 1, регрессию называют простой, если число предикторов больше 1 – множественной.

Регрессионный анализ предполагает решение двух задач. Первая заключается в выборе независимых переменных существенно влияющих на зависимую переменную, и определении формы уравнения регрессии. Зависимость между переменными может быть описана: линейным уравнением, уравнением параболы, гиперболы, степенного типа, логистической кривой. Для подбора вида зависимости между изучаемыми переменными оценивают график. Иногда примерный вид зависимости между переменными бывает, известен из предыдущих исследований аналогичных данных. Самая простая форма уравнения регрессии – линейная. Линейная регрессия с несколькими предикторами называется линейной множественной регрессионной моделью. Для линейной модели предполагается, что наблюдаемые величины связаны между собой зависимостью вида: y i= b1 x1i + b2 x2i + …+ bp x1p + b 0 + c i , где b1 ,b2 , bp , bo – коэффициенты уравнения, вычисляемые при помощи систем нормальных уравнений; c i – независимая случайная величина с нулевым математическим ожиданием (иногда c i называют ошибками наблюдения). По наблюдениям x1i , x2i , x1p и yi оцениваются параметры модели b1, b2, bp, bo; строятся доверительные интервалы для b1, b2, bp, bo; проверяется гипотеза о значимости уравнения и коэффициентов регрессии; оценивается степень адекватности полученной зависимости. Вторая задача регрессионного анализа состоит в оценке изменения зависимой переменной на основании известных изменений независимых переменных (прогноз значения независимой переменной при заданных значениях или заданных изменениях независимых переменных).

Регрессионный анализ тесно связан с другими статистическими методами – методами корреляционного и дисперсионного анализа. В отличие от корреляционного анализа, который изучает направление и силу связи между признаками, регрессионный анализ изучает вид зависимости признаков, т.е. параметры функции зависимости одного признака от одного или нескольких других признаков. В отличие от дисперсионного анализа, с помощью которого исследуется зависимость количественного признака от одного или нескольких качественных признаков, в регрессионном анализе исследуется зависимость (количественного или качественного признака) от одного или нескольких количественных признаков.

Пример 1. Возможности модуля Regression Analysis рассмотрим на примере 1. На 20 павианах гамадрилах изучалась зависимость между массой матерей, измеряемой в начале беременности (Х, кг) и массой новорожденных детенышей (У, кг)

Х: 10,0 10,8 11,3 10,0 10,1 11,1 11,3 10,2 13,5 12,3 14,5 11,0 12,0 11,8 13,4 11,4 12,0 15,6 13,0 12,1

У: 0,7 0,73 0,75 0,7 0,65 0,65 0,7 0,61 0,7 0,63

0,7 0,65 0,72 0,69 0,78 0,7 0,6 0,85 0,8 0,75

Для запуска метода Регрессионный анализ надо выбрать переменные для анализа с помощью кнопки Variables. В диалоговом окне производится выбор зависимой и независимых переменных. Для задания дополнительных установок во вкладке Advanced производится выбор вида анализа.

После выбора ступенчатой регрессии появляется диалоговое окно Model definition (построение модели). На вкладке Advanced этого окна нужно указать метод: стандартный, пошаговый с включением, пошаговый с выключением; проведение оценки свободного члена регрессии (Intercept) и сделать другие установки. После проведения выбора откроется окно результатов регрессионного анализа.

Верхняя часть окна результатов – информационная. В первой части содержится основная информация о результатах оценивания, во второй – значимые стандартизированные регрессионные коэффициенты. Внизу окна находятся функциональные кнопки, позволяющие всесторонне просмотреть результаты анализа. В информационной части содержатся краткие сведения о результатах анализа, а именно: имя зависимой переменной (Dependent); число наблюдений, по которым построена регрессионная модель (No.of cases=20); коэффициент множественной корреляции R=0,565; коэффициент детерминации R²=0,319; скорректированный коэффициент детерминации R²=0,281; стандартная ошибка оценки=0,053 (эта статистика – мера рассеяния наблюдаемых значений относительно регрессионной прямой); Intercept=0,42 (оценка свободного члена bo регрессии), если выбрана регрессия, включающая свободный член; стандартная ошибка оценки свободного члена bo =0,096; значение t-критерия=4,37 и уровень значимости Р=0,004 для проверки гипотезы о равенстве нулю свободного члена bo ;значение F-критерия=8,44, число степеней свободы = 1,18 и уровень значимости Р=0,0094 используются в качестве критериев для проверки гипотезы о зависимости предикторов и отклика.

Из приведенных результатов анализа следует, что зависимость между откликом и предикторами достоверная (R²=0,319); построенная линейная регрессия адекватно оценивает взаимосвязь между откликом и предикторами, свободный член статистически значим.

Если нажать на кнопку Summary regression results, появится таблица результатов с подробными статистиками). Таблица содержит стандартизированные (Beta) и нестандартизированные (В) регрессионные коэффициенты (веса), их стандартные ошибки и уровни значимости. Коэффициенты Beta оцениваются по стандартным данным, имеющим выборочную среднюю, равную нулю и стандартное отклонение, равное 1. Поэтому величина Beta позволяет сравнить вклады каждого предиктора в предсказание отклика. Так, переменная Х вносит больший вклад в значение зависимой переменной.

Коэффиенты уравнения регрессии b1 и свободный член статистически значимы при уровне значимости Р=0,000. Регрессионное уравнение имеет вид: y i= 0,0235 x1i+ 0,423. Уравнение регрессии можно использовать для прогноза значений отклика по значениям предикторов. Для этого надо вернуться в стартовое окно регрессионного анализа, выбрать вкладку остатки/оценки/предсказания (Residuals /assumptions /prediction) и нажать на кнопку Предсказать зависимую переменную (Predict dependent variable). Далее в открывшемся окне Specify values for indep. vars. в полях предикторов нужно указать значения, после чего программа рассчитает значение отклика.

Задания для самостоятельной работы

Задание 1. Даны результаты изучения рентгеновского облучения и частоты мутаций у нейроспоры:

Доза облучения, кР: 0 0,1 0,5 1,5 3,0

Частота мутаций, % 1,2 1,3 2,0 3,7 7,4

Проведите анализ зависимости доза- эффект.

Задание 2. Результаты зависимости степени антропогенной нагрузки (выраженной в баллах) и индекса видового разнообразия Шеннона следующие:

Степень антропогенной нагрузки

1

2

3

4

5

Индекс видового разнообразия

2,506

2,168

2,124

2,114

1,965

Проведите анализ зависимости антропогенная нагрузка – видовое разнообразие птиц.

Контрольные вопросы:

1. Объясните применение в биологии регрессионного анализа. 2.Объясните разницу между дисперсионным, корреляционным и регрессионным анализом. 3. При решении, каких задач проводят линейный, нелинейный, множественный регрессионный анализ? 4.Составьте план проведения дисперсионного анализа Ваших экспериментальных данных. 5. Докажите целесообразность проведения дисперсионного анализа при обработке Ваших экспериментальных данных.