Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лаб_мат_статист_4.doc
Скачиваний:
13
Добавлен:
17.08.2019
Размер:
584.19 Кб
Скачать

§4.2. Линейная регрессия

Уравнением линейной регрессии (выборочным) Y на Х называется зависимость от наблюдаемых значений величины Х, выраженная линейной функцией:

, (4.4)

где величина называется выборочным коэффициентом линейной регрессии Y на Х.

Будем считать, что каждая пара значений случайных величин (хi,yi) наблюдалась по одному разу. В этом случае линейной зависимостью связаны сами наблюдаемые значения хi и yi.

Коэффициенты в уравнении линейной регрессии Y на Х (4.4) вычисляется по формулам:

и , (4.5)

где sх – стандартное отклонение величины Х, а средние значения вычисляются по формулам (4.2).

Уравнением линейной регрессии (выборочным) Х на Y называется зависимость от наблюдаемых значений величины Х, выраженная линейной функцией:

, (4.6)

где величина называется выборочным коэффициентом линейной регрессии Х на Y.

Коэффициенты в уравнении линейной регрессии Х на Y (4.6), вычисляется по формулам:

и . (4.7)

где sу – стандартное отклонение величины Y.

Если коэффициент корреляции двух величин Х и Y равен r=±1, то эти величины связаны линейной зависимостью. Коэффициент корреляции служит мерой силы (тесноты) линейной зависимости измеряемых величин. На практике, если коэффициент корреляции двух величин Х и Y |r|>0.5, то считают, что есть основания предполагать наличие линейной зависимости между этими величинами. Однако ориентироваться при выборе типа линии регрессии (линейной или нелинейной) лучше по виду эмпирической зависимости величин Х и Y.

Вычисление в Excel коэффициентов линейной регрессии.

Для вычисления коэффициентов линейной регрессии Y на Х (4.5) в Excel имеются следующие функции:

  • НАКЛОН – вычисляет ;

  • ОТРЕЗОК – вычисляет .

Аргументами у этих функций являются диапазоны ячеек, содержащие значения и . Например, если значения находятся в интервале А1:А10, а значения находятся в интервале В1:В10, то вычисляется по формуле: =НАКЛОН(В1:В10; А1:А10), а вычисляется по формуле: =ОТРЕЗОК(В1:В10; А1:А10) (обязательно на первой позиции интервал значений величины Y!).

Если требуется вычислить коэффициент линейной регрессии Х на Y (4.7), то в указанных выше функциях на первую позицию следует ставить интервал значений Х, а на вторую  интервал значений переменной Y.

В Excel имеется возможность вычислить по уравнению линейной регрессии (4.4) значение переменной Y, соответствующее любому заданному значению переменной Х. Для этого существует функция ПРЕДСКАЗ(Х; диапазон_Y; диапазон_Х), где:

  • Х – то значение переменной Х, для которой по формуле (4.4) следует вычислить предсказанное значение Y;

  • диапазон_Y – это интервал ячеек, содержащих наблюдаемые значения ;

  • диапазон_Х – это интервал ячеек, содержащих наблюдаемые значения .

Функция ПРЕДСКАЗ выдает такой же результат, который можно вычислять с помощью функций НАКЛОН и ОТРЕЗОК по формуле: =Х*НАКЛОН(диапазон_Y; диапазон_Х) + ОТРЕЗОК(диапазон_Y; диапазон_Х), где диапазон_Y и диапазон_Х – интервалы ячеек, содержащие, соответственно, значения и , а Х – адрес ячейки, содержащей значение Х (или само это число), для которого следует вычислить предсказанное Y по формуле (4.4).

Построение линейной регрессии с помощью Пакета анализа.

В Пакете анализа имеется инструмент анализа Регрессия, который позволяет получить коэффициенты корреляции (4.3), регрессии (4.5), их стандартные ошибки, а также характеристики, позволяющие установить, насколько хорошо полученное теоретическое уравнение линейной регрессии описывает экспериментальные данные.

Для вызова инструмента анализа Регрессия следует выполнить команду СервисАнализ данныхРегрессия.

Вид появившегося диалогового окна:

В появившемся диалоговом окне Регрессия указываются:

  • в группе Входные данные в поле Входной интервал Y адрес интервала ячеек, в которых содержатся наблюдаемые значения ;

  • в поле Входной интервал Х – адрес интервала ячеек, в которых содержатся наблюдаемые значения ;

  • в группе Параметры вывода активизируется переключатель Выходной интервал, и в ставшее активным поле набирается адрес ячейки, куда следует вывести результаты, а если вы хотите поместить результаты на другой рабочий лист или новый файл, то следует активизировать, соответственно, переключатели Новый рабочий лист или Новая рабочая книга;

  • в группе Остатки обычно рекомендуется отметить галочкой только поле График подбора, который и будет содержать прямую регрессии;

  • остальные поля можно не отмечать и нажать ОК.

В результате появится заголовок Вывод итогов и несколько таблиц и график подбора. График подбора требует дополнительного редактирования. В частности, по умолчанию линия регрессии, вычисленная по теоретическому уравнению, будет иметь вид ромбических маркеров розового цвета. Принято, чтобы прямая регрессии представляла собой сплошную линию, а точками (маркерами) отмечались только экспериментальные данные. Щелкнув по розовым маркерам точек Предсказанное Y, можно вызвать окно Формат ряда данных, и во вкладке Вид в группе Линия отметить переключатель Обычная или Другая, выбрать цвет и толщину линии, а затем в группе Маркер активизировать переключатель Отсутствует и нажать ОК.

В результате график линейной регрессии будет представлять собой требуемую прямую сплошную линию, возле которой будут располагаться экспериментальные точки.

Самая верхняя таблица итоговых вычислений называется Регрессионная статистика. В ней содержатся:

  • в строке Множественный R – коэффициент корреляции r (4.3);

  • в строке R-квадрат r2;

  • в оставшихся (менее важных) строках содержатся: стандартная ошибка коэффициента корреляции, число наблюдений, нормированное значение r2.

Инструмент анализа Регрессия выводит большое количество результатов и мы ограничимся рассмотрением только наиболее важных и простых. Опуская описание второй итоговой таблицы Дисперсионный анализ, переходим к третьей итоговой таблице, содержащей две строки Y-пересечение и Переменная Х1:

  • в первой колонке Коэффициенты и в первой строке Y-пересечение содержится коэффициент линейной регрессии ;

  • во второй строке Переменная Х1 этой же колонки содержится коэффициент регрессии ;

  • следующая колонка Стандартная ошибка содержит стандартные ошибки коэффициентов и ;

  • опуская две следующие колонки, переходим к паре колонок с названиями Нижние 95% и Верхние 95%.

В этих колонках содержатся нижняя и верхняя границы доверительных интервалов (при установленной надежности 95% по умолчанию) для коэффициента (в первой строке) и коэффициента (во второй строке). Эти доверительные интервалы имеют вид и , где и  нижние и верхние границы интервалов, соответственно, для коэффициентов и . Они показывают, что с вероятностью 0,95 значения вычисленных коэффициентов и могут содержаться в указанных интервалах.

Поскольку для любой выборочной характеристики необходимо, либо указывать доверительный интервал, либо оценивать их значимость, то информация, выведенная в рассматриваемой таблице, позволяет установить, насколько точно рассчитанные коэффициенты линейной регрессии описывают экспериментальную зависимость. Если доверительный интервал окажется широким, то это означает, что полученное уравнение линейной регрессии плохо описывает экспериментальную зависимость, которая, скорее всего, является нелинейной.

В последней таблице Вывод остатка содержатся вычисленные по теоретической формуле (4.4) для каждого из наблюдений предсказанные значения Y и разности между предсказанными Y и наблюдаемыми в столбце Остатки.

Быстрое построение линейной регрессии в Excel: линия тренда.

В Excel имеется еще более быстрый и удобный способ построить график линейной регрессии (и даже основных видов нелинейных регрессий, о чем см. далее). Это можно сделать следующим образом:

  1. выделить столбцы с данными X и Y (они должны располагаться именно в таком порядке!);

  2. вызвать Мастер диаграмм и выбрать в группе ТипТочечная и сразу нажать Готово;

  3. не сбрасывая выделения с диаграммы, выбрать появившейся пункт основного меню Диаграмма, в котором следует выбрать пункт Добавить линию тренда;

  4. в появившемся диалоговом окне Линия тренда во вкладке Тип выбрать Линейная;

  5. во вкладке Параметры можно активизировать переключатель Показывать уравнение на диаграмме, что позволит увидеть уравнение линейной регрессии (4.4), в котором будут вычислены коэффициенты (4.5).

  6. В этой же вкладке можно активизировать переключатель Поместить на диаграмму величину достоверности аппроксимации (R^2). Эта величина есть квадрат коэффициента корреляции (4.3) и она показывает, насколько хорошо рассчитанное уравнение описывает экспериментальную зависимость. Если R2 близок к единице, то теоретическое уравнение регрессии хорошо описывает экспериментальную зависимость (теория хорошо согласуется с экспериментом), а если R2 близок к нулю, то данное уравнение не пригодно для описания экспериментальной зависимости (теория не согласуется с экспериментом).

В результате выполнения описанных действий получится диаграмма с графиком регрессии и ее уравнением.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]