Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Ватник!.doc
Скачиваний:
10
Добавлен:
07.12.2018
Размер:
1.44 Mб
Скачать

§ 5. Аналитическая регрессия. Метод наименьших квадратов

Метод групповых средних, описанный в § 3, дает возможность определить форму зависимости результативного признака y от признака-фактора x. Но этот метод обладает некоторыми недостатками, важнейшими из которых являются следующие:

а) для получения статистически устойчивых значений групповых средних необходимо, чтобы численность каждой группы была весьма значительной. Если число наблюдений сравнительно невелико, достаточная численность групп может быть обеспечена лишь выбором достаточно широких интервалов значений признака-фактора. Но в этом случае число интервалов будет мало, и картина зависимости будет весьма грубой. Увеличение числа интервалов приводит к уменьшению численности групп и вследствие этого — к статистической неустойчивости групповых средних, к усилению влияния на них случайных причин;

б) результаты такого анализа, представленные в табличной или графической форме, во многих случаях неудобны или даже непригодны для дальнейшего использования. Как правило, значительно более удобной для математического анализа и для последующего практического применения является аналитическая форма представления зависимости;

в) содержательный анализ исследуемого явления, его теория, зачастую дает описание связи между рассматриваемыми признаками в виде некоторого аналитического выражения, параметры которого неизвестны. В этом случае при статистическом анализе зависимости форма связи в общем виде известна заранее, и по данным статистического наблюдения необходимо определить лишь неизвестные параметры. Здесь эмпирически-регрессионный метод непосредственно не может быть использован.

От этих недостатков свободен аналитически-регрессионный метод, состоящий в том, что форма зависимости результативного признака от факторного описывается некоторым аналитическим выражением. Так как исследуемая связь не является функциональной, то от искомого уравнения, описывающего связь (уравнения регрессии), не требуется, чтобы ему удовлетворяли наблюдаемые значения признаков для всех элементов совокупности. Требуется лишь, чтобы функция , входящая в уравнение связи1

была в некотором смысле «ближайшей» к рассматриваемой корреляционной зависимости.

При решении этой задачи большое распространение получил так называемый метод наименьших квадратов, смысл названия которого будет ясен из последующего. Основное зерно этого метода состоит в способе измерения «расстояния» между исследуемой корреляционной зависимостью и некоторой функцией.

Для любого элемента исследуемой статистической совокупности, обладающего индивидуальными значениями yi и xi рассматриваемых признаков, может быть определено отклонение фактического значения признака y от соответствующего значения функции :

Мерой «расстояния» функции от фактической зависимости во всей совокупности может служить величина, некоторым образом обобщающая эти индивидуальные отклонения. При этом положительные и отрицательные отклонения равнозначны, так что способ усреднения не должен учитывать знаков отклонений. Поэтому в качестве такой меры целесообразно принять, так же, как при измерении вариации одного признака, средний квадрат отклонений индивидуальных значений результативного признака y от соответствующих значений функции :

. (5.1)

(Здесь используется то же обозначение, которое выше было введено для остаточной дисперсии. Эти величины сходны по смыслу: и та, и другая представляют собой средние квадраты отклонений фактических значений результативного признака от регрессионных. Поэтому мы сохраним для этой величины не только обозначение, но и название остаточной дисперсии).

Таким образом, величина характеризует меру отклонений результативного признака по всей совокупности от значений некоторой функции признака-фактора. В дальнейшем слово «расстояние» и производные понятия «ближе», «дальше» и т. д. будут употребляться в смысле, определяемом равенством (5.1). Это расстояние выражается средним квадратом расстояний точек корреляционного поля от их проекции на кривую (см. рис. 5.1).

Рис. 5.1

Рис. 5.1

Теперь задача отыскания функции, ближайшей к исследуемой зависимости, приобретает конкретный смысл: это та функция, для которой величина 2 принимает наименьшее значение. Однако отыскание ближайшей из всех возможных функций представляет собой неразрешимую задачу. Поэтому практически задача ставится несколько иначе. Предварительно определяется класс функций, среди которых отыскивается ближайшая (регрессионный класс). Примерами таких классов могут служить:

1) множество всех линейных зависимостей

с произвольными коэффициентами a и b;

2) множество всех квадратных трехчленов

с произвольными параметрами a, b и c;

3) множество всех полиномов заданной степени

с произвольными коэффициентами a0, a1, …, ak;

4) множество всех зависимостей гиперболического типа

с любыми значениями параметров a и b;

5) множество экспоненциальных зависимостей вида

и т. д.

При выборе класса функций в зависимости от конкретных условий исследования руководствуются следующими соображениями:

а) если теория изучаемого явления дает общий вид исследуемой зависимости с некоторыми неизвестными параметрами, то этот общий вид и есть тот класс функций, среди которых следует искать ближайшую. Так, например, если известно, что величина y должна складываться из некоторой константы и составляющей, пропорциональной фактору x, то функцию регрессии следует искать в классе линейных зависимостей вида ;

б) если исследование проводится в узко утилитарных целях и необходимо установить лишь значения вполне определенных параметров связи, то общий вид функции из рассматриваемого класса должен содержать все эти параметры. Допустим, что транспортная компания по разовым заказам предоставляет автобусы для внутригородских перевозок и хочет установить тариф из двух частей: фиксированной платы за заказ и покилометровой платы. Для обоснования тарифа компания выполняет анализ затрат на состоявшиеся перевозки. С точки зрения задачи данного анализа целесообразно представить зависимость затрат от расстояния в виде зависимости, содержащей постоянную составляющую и составляющую, пропорциональную дальности перевозки, т. е. определить параметры a и b функции a bx, где x — дальность;

в) если же качественный, содержательный анализ явления не дает определенных оснований для выбора того или иного класса функций, исследователь выбирает класс функций по виду корреляционного поля или предварительно определенной эмпирической линии регрессии. В этом случае нельзя дать каких-либо универсальных рекомендаций, и исследователь действует в значительной мере интуитивно, на основании собственного опыта. Зачастую приходится отыскивать функцию регрессии в различных классах и затем, сопоставив полученные результаты, остановиться на одном из них.

Рис. 5.2

Рис. 5.2

Будем считать, что выбор класса функции мы осуществили. Для общего вида функции рассматриваемого класса будем использовать обозначение ; здесь — параметры, которые подлежат определению. В зависимости от конкретного выбора этих параметров мы получаем ту или иную функцию из рассматриваемого класса. Одни из этих функций будут ближе к одним точкам корреляционного поля, другие — ближе к другим (рис. 5.2). Но нам нужно выбрать из класса ту функцию, которая в смысле показателя (5.1) ближе ко всем точкам.

Таким образом, задача отыскания функции регрессии имеет следующую математическую формулировку: требуется определить значения параметров , при которых величина

принимает наименьшее значение.

При этом значения признаков x и y, определенные в ходе статистического наблюдения, естественно, считаются заданными, постоянными.

Так как величина 2 определяется равенством

,

где N — объем совокупности — величина постоянная, то безразлично, говорим ли мы о минимуме среднего квадрата отклонений или о минимуме суммы квадратов отклонений (знак суммы без указания индекса суммирования обозначает сумму по всем элементам совокупности). Поэтому поставленную задачу можно заменить требованием:

Так как все параметры должны выбираться независимо друг от друга и могут принимать произвольные значения, условием минимума суммы Q является одновременное равенство нулю частных производных величины Q по всем параметрамk. Это приводит к следующей системе уравнений

Полученное выражение представляет собой именно систему уравнений, так как полученные соотношения должны выполняться одновременно для производных по всем . Приведем полученную систему уравнений к более удобному виду:

(5.2)

Эта система носит название системы нормальных уравнений. Так как дифференцирование по каждому параметру дает одно уравнение, общее число уравнений равно числу неизвестных параметров . Набор параметров, удовлетворяющий системе нормальных уравнений, определяет функцию регрессии — функцию, ближайшую к рассматриваемой зависимости в рассматриваемом классе.

Заметим, что каков бы ни был выбранный класс функций, систему нормальных уравнений всегда можно составить и решить, так что в любом классе функций найдется такая функция, которая ближе к рассматриваемой зависимости, чем все остальные функции этого класса. Функции регрессии из одних классов лучше описывают исследуемую связь, из других классов — хуже. Так, например, для корреляционного поля, представленного на рис. 5.3, весьма неудачным является класс линейных функций вида без свободного члена. Но и в этом классе найдется функция, описывающая исследуемую связь лучше остальных. Наилучшая из гипербол вида значительно лучше описывает рассматриваемую зависимость. Из этого примера видно, что успех анализа в значительной мере зависит от рационального выбора того класса, в котором ищется функция регрессии.

Рис. 5.3

Разделив почленно уравнения системы (5.2) на объем совокупности N, получим другую форму для системы нормальных уравнений:

(5.3)

Такой вид несколько более удобен для теоретических выкладок. Конкретные системы нормальных уравнений для различных классов функций будут рассмотрены в следующих параграфах.

Очень часто используются семейства функций , одним из параметров которых является свободный член:

Функции регрессии такого вида обладают одним важным свойством. Так как , уравнение из системы (5.3) при k = 1 имеет вид

или

(5.4)

т. е. фактические и регрессионные значения результативного признака в среднем совпадают. Другие классы функций этим свойством могут не обладать1.

Изложенный принцип аналитического представления корреляционной связи получил широкое применение в современной статистике. Помимо общих преимуществ, которые дает использование аналитических методов описания функций по сравнению с табличными, аналитически-регрессионные методы позволяют в известной мере преодолеть трудности исследования формы связи при ограниченном количестве статистического материала, когда объем наблюдений недостаточен для группировок. И в этом случае можно составить и решить системы нормальных уравнений и получить характеристики зависимости. Однако для получения статистически устойчивых значений параметров регрессии число их должно быть во много раз меньше объема совокупности. В противном случае в разных совокупностях, подчиненных действию одной и той же закономерности, в силу случайных причин могут быть получены сильно различающиеся значения параметров регрессии, т.е. результат анализа не будет отражать объективной закономерности исследуемого процесса. Несмотря на такое ограничение, аналитические методы имеют весьма широкую сферу применения, так как даже при небольшом числе параметров исследуемая связь может быть описана зачастую достаточно детально.

При использовании аналитических методов регрессионного анализа, так же, как и при применении эмпирических методов, наряду с определением формы связи необходимо оценивать еще и ее тесноту. Определим величину объясненной дисперсии как средний квадрат отклонений регрессионных значений от среднего значения результативного признака:

Для многих видов функций регрессии выполняется свойство разложимости дисперсии1:

2 22, (5.5)

где , как и прежде, — полная дисперсия признака y. В качестве показателя тесноты связи при этом может быть использовано теоретическое корреляционное отношение, определяемое одним из следующих эквивалентных выражений:

(5.6)

(5.7)

Так как системы нормальных уравнений сами по себе не гарантируют выполнения свойства разложимости дисперсии (5.5), для некоторых видов функций регрессии это свойство не выполняется, и выражения (5.6) и (5.7) приводят к различным результатам. Но регрессия ищется как функция, минимизирующая отклонения ее значений от фактических значений результирующего признака. Поэтому для характеристики тесноты связи остаточная дисперсия имеет существенно большее значение, чем объясненная, и если разложение (5.5) не имеет места, корреляционное отношение определяется выражением (5.7).

Таким образом, во всех случаях

Для функций регрессии из различных классов, рассчитанных по одним и тем же данным, величина  принимает различные значения. Отсюда следует, что теоретическое корреляционное отношение является показателем тесноты связи по отношению к данному классу функций. Так, например, равенство означает, что данный вид функции регрессии не показывает связи между x и y (в частном случае связь может полностью отсутствовать); равенство означает, что связь между x и y функциональна и что функция, описывающая эту зависимость, содержится в рассматриваемом классе .

Как известно, средний квадрат отклонений индивидуальных значений любого признака от среднего арифметического — дисперсия признака — меньше, чем средний квадрат отклонений этих значений от любого другого числа. Применительно к группе, соответствующей определенному значению признака-фактора x, это свойство означает, что эмпирически-регрессионное значение (среднее групповое) признака ближе ко всем фактическим значениям y в данной группе, чем любое иное, в частности, чем определяемое аналитической функцией регрессии. Отсюда следует, что и остаточная дисперсия для эмпирической регрессии меньше (во всяком случае, не больше), чем для аналитической функции регрессии из любого класса, т.е. эмпирическое корреляционное отношение всегда больше (во всяком случае, не меньше), чем теоретическое1. Выбор класса функций считается удовлетворительным, если это расхождение невелико.