Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ОсНИтекст 16 консп лекц недораб МЕТОДОЛОГИЯ.doc
Скачиваний:
755
Добавлен:
26.03.2016
Размер:
10.94 Mб
Скачать

3.4.2. Способы, принципы и признаки оптимизации регрессии

Основные возможности и подходы к оптимизации регрессионной модели систематизированы на рис. 4.1. Они очень тесно связаны с оценками адекватности всей модели, каждого коэффициента регрессии и корреляционной связи между переменными (рис. 4.2). Так, установление достоверной связи между исследуемыми факторами (см. рис. 4.2) делает необходимым исключение мультиколлинеарности, т.е. устранение рассматриваемого ранее фактора, а затем - изменение вида, структуры связи и пересчёт коэффициентов регрессии (рис. 1.1). Если первоначально полученный коэффициент регрессии не удовлетворяет критерию Стьюдента (рис. 4.2), модель также нуждается в пересмотре, для чего исключается соответствующий фактор или изменяется тип связи (см. рис. 4.1).

На практике первое впечатление о правильности подбора модели может дать, например, увеличение коэф­фициента детерминации. Однако более обоснованное решение можно принять, срав­нив получаемые для различных моделей суммы квадратов остатков, т.е. разностей между наблюдаемыми и предсказанными значениями отклика (см. рис. 4.1).

Рис. 4.1. Основные возможности оптимизации регрессионной модели

Заметим, что существует упрощённый выбор наилучшей регрессионной модели по методу Вильямса-Клута, который не требует подсчёта суммы квадратов остатков. Но современное развитие компьютерной техники и технологии делает такой подсчёт совершенно необременительным.

3.4.3 Опции программы ms excel, предназначенные для регрессионного анализа

3.4.3.1 Использование инструмента анализа «Регрессия»

В пакете «Анализ данных» инструмент «Регрессия» (рис. 4.3) предлагает ли­нейный регрессионный анализ, который заключается в подборе графика для набора наблюдений с помощью метода наименьших квадратов. Регрессия используется для анализа воздействия на отдельную зависимую переменную значений одной или более (до 16) независимых переменных. То есть во «Входной интервал X» (рис. 4.3) можно вводить до 16 диапазонов. (Диапазоны обязательно должны быть представлены в столбцах.) Во «Входной интервал Y» вводят один диапазон, состоящий из одного столбца.

Рис. 4.2. Характеристики достоверности статистической связи

Рис. 4.3. Диалоговое окно инструмента анализа «Регрессия»

При желании получения уравнения регрессии без свободного члена (чтобы линия регрессии прошла через начало координат) следует в опцию «Константа - ноль» поставить «галочку». «Галочки» в опции «Остатки», «График остатков», «График подбора» или «Стандартизированные остатки» устанавливаются при необходимости исследования несоответствий между экспериментальными и теоретическими значениями Y, определяемыми уравнением регрессии. «Остаток» представляет собой разницу между фактическим и теоретическим значениями Y. «Стандартизированный остаток» представляет собой отношение «остатка» к «стандартной ошибке единичного наблюдения регрессионной статистики» (см. ниже). «График остатков» располагается в координатах x - величина остатка. По нему наглядно видны значения «остатка» для разных аргументов, что позволяет обнаружить «выбросы» - самые большие отклонения от теоретической модели, которые могут свидетельствовать о каком-то сбое, ошибке в получении результата. Процедура устранения таких «выбросов» называется «цензурированием».

На «графике подбора» в координатах x - Y показываются фактические и «предсказанные» данной регрессионной моделью значения Y.

Опция «График нормальной вероятности» позволяет в соответствии с появляющейся таблицей «ВЫВОД ВЕРОЯТНОСТИ» построить диаграмму в координатах «Персентиль выборки» - Y. То есть полученные значения Y в данном случае представлены в виде ранжированного вариационного ряда.

Результаты регрессионного анализа представляются как минимум (если не включены дополнительно отмеченные выше опции) в виде трёх таблиц.

1. Таблица «Регрессионная статистика» включает в себя рассчитанные значения следующих показателей:

- множественного коэффициента корреляции («Множественный R»);

- квадрата множественного коэффициента корреляции (коэффициента детерминации, «R-квадрат»);

- числа наблюдений n (число факторов обозначается k, см. ниже);

- нормированного коэффициента детерминации, объективно определяющего достоверность связи, так как, в отличие от обычного коэффициента детерминации, он не зависит от числа опытов (n) и числа факторов (k):

(4.1)

- стандартной ошибки единичного наблюдения:

(4.2)

2. Таблица «Дисперсионный анализ» включает в себя обусловленные регрессией («Регрессия»), необусловленные регрессией («Остаток») и суммарные:

- число степеней свободы df;

- сумму квадратов разностей (дисперсии SS);

- оценки дисперсий, приходящихся на одну степень свободы (MS).

Кроме того, выводятся расчётное значение F-критерия Фишера ()и «значимость F». Таким образом, в отличие от полного дисперсионного анализа (см. главу 4), табличное «критическое» значение F-критерия Фишера в данном случае не представлено. Поэтому вывод о существенности влияния рассматриваемых факторов в данном случае можно делать из сравнения величины «значимости F» с принятым уровнем доверительной вероятности α. При «значимость F» < α делается вывод о существенности влияния рассматриваемых факторов и правомерности проводимого регрессионного анализа.

3. Таблица результатов собственно регрессионного анализа (информация об уравнении регрессии) включает в себя:

- значение свободного члена уравнения (Y-пересечение);

- коэффициенты регрессии для каждого фактора;

- «Стандартную ошибку» коэффициентов регрессии ;

- «t-статистику» - расчётные значения коэффициентов Стьюдента для соответствующих коэффициентов регрессии ;

- «P-Значение» - вероятность значимости для соответствующих коэффициентов регрессии;

- нижние и верхние интервальные оценки (отклонения) для коэффициентов регрессии с 95-процентной и любой другой (заданной) доверительной вероятностью.

Поскольку «критические» (табличные) значения коэффициентов Стьюдента в этой таблице не приводятся, о достоверности рассчитанных коэффициентов регрессии можно судить по величине «P-Значения» в сравнении с принятым уровнем доверительной вероятности α. При «P-Значение» < α делается вывод о достоверности коэффициентов регрессии. В противном случае делается вывод, что регрессионная модель нуждается в коррекции (см. § 4.2).

Кроме того, при включённых дополнительных опциях выводятся следующие добавочные таблицы:

1. «Вывод остатка», где представлены:

– «Наблюдение» - порядковый номер значения отклика (у) в таблице исходных данных;

– «Предсказанное » - значение отклика (), рассчитанное по уравнению регрессии;

– «Остатки» - (см. выше);

– «Стандартные остатки» (см. выше).

2. «Вывод вероятности», где представлены:

– Персентиль - рассчитывается для каждого значения у;

– у - значения отклика, расположенные в порядке возрастания.