Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Конспект лекций СТАТИСТИКА.doc
Скачиваний:
250
Добавлен:
20.04.2015
Размер:
481.79 Кб
Скачать
  1. Корреляционный анализ порядковых переменных

Переменная (английский термин variable) — это то, что можно измерять, контролировать или чем можно манипулировать в исследованиях. Иными словами, переменная — это то, что варьируется, изменяется, а не является постоянным (от английского корня var).

Очевидно, что это очень разные по своим свойствам переменные, и поэтому можно сказать, что переменные отличаются характеристиками, в частности, той ролью, которую они играют в исследованиях, типом измерений.

Ключевым понятием, описывающим связи между переменными, является корреляция (от английского correlation — согласование, связь, взаимосвязь, соотношение, взаимозависимость); термин впервые введен Гальтоном (Gallon) в 1888 г.

Если имеется пара переменных, тогда корреляция между ними — это мера связи (зависимости) именно между этими переменными.

Например, известно, что ежегодные расходы на рекламу в США очень тесно коррелируют с валовым внутренним продуктом, коэффициент корреляции между этими величинами (с 1956 по 1977 гг.) равен 0,9699. Число посещений сайта торговой компании тесно связано с объемами продаж.

Также тесно коррелировано число хостов и число хитов на сайте (см. графики ниже).

Тесно связаны между собой такие, например, переменные, как температура воздуха и объем продажи пива, среднемесячная температура в данном месте текущего и предыдущего года, расходы на рекламу за предыдущий месяц и объем торговли в текущем месяце и т. д.

Корреляция между парой переменных называется парной корреляцией. Статистики предпочитают говорить о коэффициенте парной корреляции, который изменяется в пределах от -1 до +1.

В зависимости от типа шкалы, в которой измерены переменные, используют различные виды коэффициентов корреляции.

Если исследуется зависимость между двумя переменными, измеренными в интервальной шкале, наиболее подходящим коэффициентом будет коэффициент корреляции Пирсона (Pearson, 1896), называемый также линейной корреляцией, так как он отражает степень линейных связей между переменными. Эта корреляция наиболее популярна, поэтому часто, когда говорят о корреляции, имеют в виду именно корреляцию Пирсона.

Итак, коэффициент парной корреляции изменяется в пределах от -1 до +1. Крайние значения имеют особенный смысл. Значение -1 означает полную отрицательную зависимость, значение +1 означает полную положительную зависимость, иными словами, между наблюдаемыми переменными имеется точная линейная зависимость с отрицательным или положительным коэффициентом.

Значение 0,00 интерпретируется как отсутствие корреляции.

Корреляция определяет степень, с которой значения двух переменных пропорциональны друг другу.

  1. Метод наименьших квадратов

Метод наименьших квадратов является одним из наиболее распространенных и наиболее разработанных вследствие своей простоты и эффективности методов оценки параметров линейных эконометрических моделей.

Вместе с тем, при его применении следует соблюдать определенную осторожность, поскольку построенные с его использованием модели могут не удовлетворять целому ряду требований к качеству их параметров и, вследствие этого, недостаточно «хорошо» отображать закономерности развития процесса .

Название свое метод наименьших квадратов получил, исходя из основного принципа, которому должны удовлетворять полученные на его основе оценки параметров: сумма квадратов ошибки модели должна быть минимальной.

Метод наименьших квадратов – один из методов теории ошибок для оценки неизвестных величин по результатам измерений, содержащим случайные ошибки.

Метод наименьших квадратов применяется также для приближённого представления заданной функции другими (более простыми) функциями и часто оказывается полезным при обработке геодезических измерени.

Метод наименьших квадратов содержит в себе 2 основных способа: коррелатный и параметрический, которые при строгом уравнивании дают одинаковые результаты. Выбор способа обычно зависит от объема вычислений, определяемого в основном количеством совместно решаемых уравнений, т.е. конфигурацией сети.

Коррелатный способ более оптимален для свободных сетей и сетей с небольшим числом исходных пунктов и большим числом определяемых – по-скольку количество уравнений равно числу избыточных измерений.

Параметрический способ, наоборот, выгоден для сетей с большим числом исходных и малым числом определяемых, по-скольку количество уравнений будет равно числу необходимых измерений.

Идея коррелатного способа заключается в отыскании поправок к измеренным величинам через вспомогательные неопределенные множители, называемые коррелатами. Сущность уравнивания коррелатным способом состоит в том, что задачу нахождения минимума функции уравнения разложенного по ряду Тейлора решают по способу Лагранжа с определенными коррелатами, в результате чего получают коррелатные уравнения поправок (векторы поправок). Преобразовав уравнения поправок получают нормальные уравнения коррелат, через которые находят вероятнейшие значения поправок.

Параметрический способ подразумевает вычисление поправок не к измеренным величинам, а к каким-то приближенным значениям (параметрам), т.е. к конечным результатам уравнения, которыми в геодезических сетях являются координаты или высоты пунктов, и непосредственное получение вероятнейших значений параметров, минуя вероятнейшее значение измеренных элементов сети.

Метод наименьших квадратов был предложен К. Ф. Гауссом (1794-95) и А. Лежандром (1805-06). Первоначально этот метод использовался для обработки результатов астрономических и геодезических наблюдений. Строгое математическое обоснование и установление границ содержательной применимости метода наименьших квадратов даны А. А. Марковым и А. Н. Колмогоровым. Ныне способ представляет собой один из важнейших разделов математической статистики и широко используется для статистических выводов в различных областях науки и техники.