Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ЛР7-2007Нелинейная регрессия.doc
Скачиваний:
5
Добавлен:
26.11.2018
Размер:
193.54 Кб
Скачать

Лабораторная работа №7 Простая нелинейная регрессия

Анализируя диаграммы рассеяния двумерной совокупности данных, можно выявить три различных типа взаимосвязей между переменными X и Y.

  1. Линейная взаимосвязь.

  2. Отсутствие взаимосвязи.

  3. Нелинейная взаимосвязь.

Линейная взаимосвязь играет такую же важную роль для двумерных данных, как и нормальное распределение для одномерных данных. Прежде всего, линейную зависимость между переменными X и Y легче анализировать. В случае линейной зависимости точки на диаграмме рассеяния случайным образом концентрируются вокруг прямой линии. Набор данных линейной взаимосвязи не должен содержать сильных выбросов.

Отсутствие взаимосвязи представляет собой особый случай линейной взаимосвязи, когда соответствующая диаграмма рассеяния имеет совершенно случайный характер, то есть продвигаясь по ней слева направо, мы не обнаруживаем тенденции направленности вверх (увеличение) или вниз (уменьшение). Такая диаграмма имеет вид либо круглого, либо овального облака. Овал может иметь вертикальную или горизонтальную ориентацию, но без наклона. Фактически, если совокупность данных характеризуется отсутствием взаимосвязи, то, изменяя шкалу той или другой переменной, можно добиться того, что диаграмма рассеяния будет иметь круговую или овальную форму разброса точек.

Нелинейная взаимосвязь характеризуется тем, что в двумерной совокупности данных точки на диаграмме рассеяния группируются вокруг некоторой кривой линии. Поскольку разновидностей кривых может быть чрезвычайно много, анализ нелинейной взаимосвязи существенно сложнее, чем линейной. Для переменных X и Y с нелинейной зависимостью корреляционный и регрессионный анализ следует использовать с осторожностью. В некоторых задачах бывает полезно преобразовать одну или две переменные таким образом, чтобы получить между ними линейную взаимосвязь. Это позволяет упростить анализ (применив корреляцию и регрессию к линейной взаимосвязи), а полученные результаты, если удается, преобразовать обратно в исходную форму.

Важным шагом при выборе нелинейной формы зависимости является изучение графика. Ниже на рисунке изображены четыре выпуклые нелинейные кривые, которые могут быть получены на графике. Метка для каждой кривой обозначает направление выпуклости.

X

X

Направление выпуклости соответствует определенному виду функции регрессии. Так, для данных, имеющих выпуклость в сторону северо-запада (СЗ), используются степенные (при x>1) и логарифмические функции; для данных, имеющих выпуклость в сторону юго-запада (ЮЗ), используются степенные, логарифмические или экспоненциальные функции; данным с выпуклостью в сторону юго-востока (ЮВ) соответствуют степенные (при x>1) и экспоненциальные функции. Кроме того, все четыре кривые данных могут быть смоделированы квадратичной функцией (полиномом второй степени).

Если вид данных на графике не подходит к указанным выше примерам, то следует использовать какую-либо другую форму зависимости. Например, если данные имеют две выпуклости (S-форма), то можно применить кубическую функцию (полином третьей степени).

В данной лабораторной работе рассмотрим четыре модели нелинейной зависимости между двумя переменными X и Y: полиномиальная, логарифмическая, степенная и экспоненциальная. В качестве примера используем данные о ценах объектов недвижимости (см. лабораторную работу №5, таблицу 1). В качестве зависимой переменной Y принимается стоимость (в тысячах долларов), а независимой переменной X – площадь (в квадратных метрах).

Из проведенного в лабораторной работе №6 линейного регрессионного анализа для указанных данных получены график линейной функции регрессии и график остатков. На графике остатков видно, что первые два объекта недвижимости с небольшой площадью и последние несколько объектов с большой площадью имеют отрицательные остатки. Это наблюдение показывает, что нелинейное приближение может дать лучшие результаты. При внимательном рассмотрении диаграммы рассеяния (см. лабораторную работу №5, задание 1) можно заметить, что график функции регрессии имеет небольшую выпуклость в сторону СЗ, хотя кривизна небольшая. Следовательно, для анализа можно использовать полиномиальную (квадратичную), степенную или логарифмическую функции.

Полиномиальное приближение

Рассмотрим квадратичную модель, в которой функция регрессии представляет собой полином второй степени. Уравнение регрессии квадратичной модели имеет следующий вид.

В качестве независимых переменных в уравнении используются переменные x и x2.

Задание 1.

Построить график квадратичной функции регрессии, отражающей зависимость между стоимостью и площадью жилого объекта.

  1. Откройте программу Excel. Щелкните на кнопке Сохранить на Панели быстрого доступа. В появившемся диалоговом окне откройте папку Статистика ххх и задайте имя файлу Нелинейная регрессия.xlsх. Зашифруйте файл, задав пароль.

  2. Откройте файл Двумерные данные.xlsx. Щелкните на ярлыке Лист1. Выделите диапазон данных вместе с построенной диаграммой рассеяния и скопируйте его в файл Нелинейная регрессия.xlsх на Лист1 в тот же диапазон. Закройте файл Двумерные данные.xls.

  3. На диаграмме рассеяния щелкните правой кнопкой мыши на любой точке данных и в контекстном меню выберите команду Добавить линию тренда… Появится диалоговое окно Формат линии тренда.

  4. В диалоговом окне на вкладке Параметры линии тренда установите тип Полиномиальная. Параметр Степень: должен соответствовать числу 2..

  5. В области Название аппроксимирующей (сглаженной) кривой выберите опцию автоматическое:.

  6. Убедитесь, что флажок пересечение кривой с осью Y в точке: не установлен.

  7. Установите флажки показывать уравнение на диаграмме и поместить на диаграмму величину достоверности аппроксимации (R^2). Щелкните на кнопке Закрыть.

  8. Выделите текст с уравнением регрессии и значением R2 и перетащите на свободное место диаграммы.

Результат приближения квадратичной функцией немного лучше, чем при линейном приближении, так как коэффициент детерминации R2, равный 68%, получился больше 66%. Для более точного анализа квадратичной модели получим дополнительные характеристики регрессии, используя инструмент анализа Регрессия.

  1. Скопируйте данные с Листа1 (диапазон A1:B16) на Лист2 в такой же диапазон.

  2. Выделите столбец B и на вкладке Главная в группе Ячейки выберите команду Вставить→Вставить столбцы на лист.

  3. В ячейку B1 введите метку Площадь^2. Увеличьте ширину столбца B, дважды щелкнув на правой границе его заголовка.

  4. Выделите ячейку B2 и введите в нее формулу =A2^2.

  5. Скопируйте формулу в остальные ячейки столбца B, выделив ячейку B2 и дважды щелкнув по маркеру заполнения.

  6. На вкладке Данные выберите команду Анализ данныхРегрессия. В диалоговом окне Регрессия установите следующие параметры.

  • Входной интервал Y: укажите диапазон значений зависимой переменной (C1:C16), включая метку в первой строке.

  • Входной интервал X: укажите диапазон значений независимых переменных (A1:B16), включая метку в первой строке.

  • Метки: включите эту опцию, так как во Входные интервалы X и Y были включены подписи.

  • Параметры вывода: включите Выходной интервал, щелкните в текстовой строке и введите в нее ссылку на ячейку E1, указывающую левый верхний угол области вывода результатов. Щелкните на кнопке ОК.

  1. Выделите диапазон столбцов E:M и увеличьте ширину столбцов, дважды щелкнув по правой границе в строке заголовков столбцов.

  2. Удалите часть результатов, относящихся к дисперсионному анализу. Для этого выделите диапазон E10:M14 и выберите из контекстного меню команду Удалить… В диалоговом окне установите опцию ячейки, со сдвигом вверх. Щелкните на кнопке ОК.