3.4. Корреляционный и регрессионный анализы Постановка вопроса
Дисперсионный анализ позволяет подтвердить влияние тех или иных факторов на рассматриваемый результативный признак, но он не дает возможности определить ни степень их влияния (тесноту связи), ни форму зависимости. При решении этих вопросов на помощь исследователю приходит корреляционный анализ.
Чтобы изучить характер влияния одной величины х на другую величину y, мы производим наблюдения или опыты, измеряя значения величины y при разных значениях величины х. Когда две переменные величины х и y зависят друг от друга так, что каждому значению одной из них соответствует вполне определенное одно или несколько значений другой, то между ними имеется функциональная связь. Эта связь может быть выражена уравнениями, причем вид этих уравнений определяется характером существующей зависимости.
Так, например, задав величину угла, получаем вполне определенную величину его синуса. Однако в большинстве случаев приходится иметь дело с переменными величинами, между которыми существует зависимость, но эта зависимость не является вполне опреде-ленной: каждому значению одной из величин (например, х) соответствует некоторая сово-купность значений другой (например, y), причем распределение y меняется определенным образом при изменении х. Таким образом, зависимость обнаруживается не между самими величинами, а между каждой из них и соответствующим ей математическим ожиданием другой. Корреляционная связь является промежуточной между функциональной связью и независимостью переменных.
Если мы попытаемся экспериментально подтвердить классическую функциональную зависимость между объемом газа v и давлением р, то убедимся в том, что значения v не однозначно соответствуют значениям р. Причины колебаний заключаются в том, что наблюдаемые показатели объема газа в действительности являются функцией не одного лишь давления. Они зависят также и от ряда других аргументов: природы газа, атмосферных влияний, точности приборов и других условий, характеризующих обстановку опыта. В эксперименте часто невозможно устранить влияние посторонних факторов отчасти потому, что в значительной мере эти факторы неизвестны, отчасти потому, что управление ими затруднено или недоступно.
Таким образом, первая задача измерения связи заключается в том, чтобы выяснить, как изменялась бы функция в связи с изменением одного из своих аргументов, если бы ряд других ее аргументов не изменялся. Причем прочие аргументы на самом деле изменяются и своей изменчивостью затушевывают и искажают интересующую нас зависимость.
Отсюда вторая задача измерения связи заключается в определении степени искажающего влияния прочих факторов на интересующую нас зависимость.
Задачи, связанные с изучением зависимостей между величинами, отличными от функ-циональных, весьма разнообразны.
Основное применение, которое находит теория корреляции, относится к решению задачи обоснованного прогноза, т. е. указания пределов, в которых с наперед заданной надежностью будет содержаться интересующая нас величина, если другие связанные с ней величины получат определенные значения. Нас может интересовать влияние различных факторов друг на друга, например, качества электроэнергии на её потери в сетях.
Способ наименьших квадратов