- •1. Что изучает теория вероятностей
- •2. Испытание. Событие. Классификация событий
- •3. Понятие вероятности события. Классическое определение вероятности
- •4. Относительная частота события. Статистическое определение вероятности
- •5. Понятие комбинаторики. Основные правила комбинаторики
- •6. Основные комбинаторные соединения
- •7. Алгебра событий
- •8. Условная вероятность. Теоремы умножения вероятностей
- •9. Теоремы сложения вероятностей. Вероятность появления хотя бы одного события
- •10. Формула полной вероятности
- •11. Вероятность гипотез. Формула Байеса
- •12. Формула Бернулли
- •13. Формула Пуассона
- •14. Наивероятнейшее число появления события
- •15. Понятие и виды случайных величин
- •16. Закон распределения вероятностей дсв. Способы задания
- •17. Биноминальное распределение
- •18. Пуассоновское распределение
- •19. Геометрическое распределение
- •20. Гипергеометрическое распределение
- •21. Математическое ожидание дсв и его свойства
- •22. Дисперсия дсв и её свойства. Формула для вычисления дисперсии. Среднее квадратическое отклонение
- •23. Функция распределения вероятностей и её свойства
- •24. Плотность распределения вероятностей и её свойства
- •25. Числовые характеристики нсв
- •26. Равномерное распределение и его свойства
- •27. Показательное распределение и его свойства
- •28. Нормальное распределение и его свойства
- •29. Правило трёх сигм. Центральная предельная теорема Ляпунова
- •30. Закон больших чисел
- •31. Задачи математической статистики
- •32. Выборочный метод
- •33. Типы выборок и способы отбора
- •34. Вариационные ряды
- •35. Эмпирическая функция распределения
- •36. Полигон и гистограмма
- •37. Точечные оценки параметров распределения
- •38. Генеральная и выборочная средние
- •39. Генеральная и выборочная дисперсии
- •40. Оценка генеральной средней по выборочной средней
- •41. Оценка генеральной дисперсии по исправленной выборочной дисперсии
- •42. Метод моментов для точечной оценки параметров распределения
- •43. Метод наибольшего правдоподобия для точечной оценки параметров распределения
- •44. Интервальные оценки параметров распределения
- •45. Доверительные интервалы для параметров нормального распределения
- •46. Виды зависимостей между случайными величинами
- •47. Выборочные уравнения регрессии
- •48. Коэффициент корреляции
- •49. Линейная корреляция
- •50. Статистическая гипотеза
- •51. Виды ошибок
- •52. Статистический критерий. Критическая область
- •53. Сравнение выборочной средней с математическим ожиданием
- •54. Сравнение двух дисперсий нормальных генеральных совокупностей
47. Выборочные уравнения регрессии
Для определения значений теоретических коэффициентов, входящих в уравнения регрессии, вообще говоря, необходимо знать и использовать все значения переменных генеральной совокупности, что практически невозможно. В связи с этим по выборке ограниченного объема строится так называемое выборочное (эмпирическое) уравнение регрессии. В силу несовпадения статистической базы для генеральной совокупности и выборки оценки коэффициентов, входящих в уравнение регрессии, практически всегда отличаются от истинных (теоретических) значений, что приводит к несовпадению эмпирической и теоретической линий регрессии. Различные выборки из одной и той же генеральной совокупности обычно приводят к отличающимся друг от друга оценкам. Задача состоит в том, чтобы по конкретной выборке найти оценки неизвестных параметров так, чтобы построенная линия регрессии являлась бы наилучшей, среди всех других линий.
Линейная регрессия
Если функция регрессии линейна, то говорят о линейной регрессии. Линейная регрессия (линейное уравнение) является наиболее распространенным (и простым) видом зависимости между экономическими переменными. Для этого простейшего случая имеем:
или
Последнее соотношение называется теоретической линейной регрессионной моделью; коэффициенты b0, b1 – теоретическими параметрами регрессии; ei – случайным отклонением.
По выборке ограниченного объема строится выборочное уравнение регрессии:
,(1)
где b0, b1 – оценки неизвестных параметров b0, b1, называемые выборочными (эмпирическими) коэффициентами регрессии, – оценка условного математического ожидания . Для величин справедлива формула:
, (2)
где отклонение ei– оценка теоретического отклонения ei.
Построенная прямая выборочной регрессии должна наилучшим образом описывать эмпирические данные, т.е. коэффициенты b0, b1 должны быть такими, чтобы случайные отклонения ei были минимальны. Наиболее распространенным методом нахождения коэффициентов уравнения регрессии является метод наименьших квадратов (МНК).
48. Коэффициент корреляции
Корреля́ция (корреляционная зависимость) — статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения значений одной или нескольких из этих величин приводят к систематическому изменению значений другой или других величин.[1] Математической мерой корреляции двух случайных величин служит корреляционное отношение [2], либо коэффициент корреляции R(или r)[1]. В случае, если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической[3].
Впервые в научный оборот термин «корреляция» ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.[4]
Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными (возможна также ситуация отсутствия статистической взаимосвязи — например, для независимых случайных величин). Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция — корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции может быть отрицательным; положительная корреляция в таких условиях — корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции может быть положительным.
Корреляция и взаимосвязь величин
Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанес пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «бо́льшее количество пожарных приводит к бо́льшему ущербу», и тем более не имеет смысла попытка минимизировать ущерб от пожаров путем ликвидации пожарных бригад.[5]
В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Более тонкий инструмент для изучения связи между двумя случайными величинами является понятие взаимной информации.
Коэффициент ранговой корреляции Кендалла
Применяется для выявления взаимосвязи между количественными или качественными показателями, если их можно ранжировать. Значения показателя X выставляют в порядке возрастания и присваивают им ранги. Ранжируют значения показателя Y и рассчитывают коэффициент корреляции Кендалла:
,
где S = P − Q.
P — суммарное число наблюдений, следующих за текущими наблюдениями с большим значением рангов Y.
Q — суммарное число наблюдений, следующих за текущими наблюдениями с меньшим значением рангов Y. (равные ранги не учитываются!)
Если исследуемые данные повторяются (имеют одинаковые ранги), то в расчетах используется скорректированный коэффициент корреляции Кендалла:
t — число связанных рангов в ряду X и Y соответственно.
Коэффициент ранговой корреляции Спирмена
Каждому показателю X и Y присваивается ранг. На основе полученных рангов рассчитываются их разности d и вычисляется коэффициент корреляции Спирмена:
Коэффициент корреляции знаков Фехнера
Подсчитывается количество совпадений и несовпадений знаков отклонений значений показателей от их среднего значения.
C — число пар, у которых знаки отклонений значений от их средних совпадают.
H — число пар, у которых знаки отклонений значений от их средних не совпадают.
Коэффициент множественной ранговой корреляции (конкордации)
m — число групп, которые ранжируются.
n — число переменных.
Rij — ранг i-фактора у j-единицы.
Значимость:
, то гипотеза об отсутствии связи отвергается.
В случае наличия связанных рангов:
Свойства коэффициента корреляции
Неравенство Коши — Буняковского:
если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши — Буняковского будет:
.
Коэффициент корреляции равен +-1 тогда и только тогда, когда X и Y линейно зависимы (исключая события нулевой вероятности, когда несколько точек «выбиваются» из прямой, отражающей линейную зависимость случайных величин):
,
где . Более того в этом случае знаки и k совпадают:
.
Если X, Y независимые случайные величины, то . Обратное в общем случае неверно.