- •Парная регрессия
- •Линейные и нелинейные модели регрессии
- •Определение параметров в моделях парной регрессии
- •Линейный коэффициент корреляции
- •Критерий Стьюдента (t-критерий)
- •А) случай независимых выборок
- •Случай связанных (парных) выборок
- •Множественная регрессия
- •Изучение сезонных колебаний
- •Логит и пробит модели
- •Основные стадии экспертного опроса
- •1.3 Модель адаптивных ожиданий
- •1.4 Модель исправления ошибок
- •5.4.МетодМонте-Карло(методстатистическихиспытаний).
- •Портфель Марковица минимального риска
Критерий Стьюдента (t-критерий)
Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».
При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых, несвязанных выборок (так называемый двухвыборочный t-критерий). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.
Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий. Выборки при этом называют зависимыми, связанными.
А) случай независимых выборок
Статистика критерия для случая несвязанных, независимых выборок равна:
(1)
где , — средние арифметические в экспериментальной и контрольной группах,
- стандартная ошибка разности средних арифметических. Находится из формулы:
, (2)
где n1 и n2 соответственно величины первой и второй выборки.
Если n1=n2, то стандартная ошибка разности средних арифметических будет считаться по формуле:
(3)
где n величина выборки.
Подсчет числа степеней свободы осуществляется по формуле:
k = n1 + n2 – 2. (4)
При численном равенстве выборок k = 2n - 2.
Далее необходимо сравнить полученное значение tэмп с теоретическим значением t—распределения Стьюдента (см. приложение к учебникам статистики). Если tэмп<tкрит, то гипотеза H0 принимается, в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза.
Случай связанных (парных) выборок
В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента.
Вычисление значения t осуществляется по формуле:
(5)
где — разности между соответствующими значениями переменной X и переменной У, а d - среднее этих разностей;
Sd вычисляется по следующей формуле:
(6)
Число степеней свободы k определяется по формуле k=n-1. Рассмотрим пример использования t-критерия Стьюдента для связных и, очевидно, равных по численности выборок.
Если tэмп<tкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.
8. Множественная регрессия
Множественная регрессия
Обобщением линейной регрессионной модели с двумя переменными является многомерная регрессионная модель (или модель множественной регрессии). Пусть n раз измерены значения факторов x1 , x2 , ..., xk и соответствующие значения переменной y; предполагается, что
yi = b o + b 1xi1 + ... + b k xik+ i , i = 1, ..., n, (12)
(второй индекс у х относится к номеру фактора, а первый - к номеру наблюдения); предполагается также, что
M i = 0, M = 2,
M( i j) = 0, i не равно j, (12a)
т.е. i - некоррелированные случайные величины. Соотношения (12) удобно записывать в матричной форме:
Y = X + , (13)
где Y = (y1, ..., yk)T - вектор-столбец значений зависимой переменной, Т - символ транспонирования, = ( 0, 1, ..., k)T - вектор-столбец (размерности k) неизвестных коэффициентов регрессии, = ( 1 , ..., n)T - вектор случайных отклонений,
-матрица n x (k + 1); в i - й строке (1, xi1, ...,xik) находятся значения независимых переменных в i-м наблюдении первая переменная - константа, равная 1.
Оценка коэффициентов регрессии. Построим оценку для вектора так, чтобы вектор оценок = Х зависимой переменной минимально (в смысле квадрата нормы разности) отличался от вектора Y заданных значений:
по .
Решением является (если ранг матрицы Х равен k +1) оценка
= (XTX)-1 XTY (14)
Нетрудно проверить, что она несмещенная. Ковариационная (дисперсионная) матрица равна
D = ( - b ) ( - b )T = s 2 (XTX)- 1 = s 2 Z , (15)
где обозначено Z = (XTX)- 1.
Справедлива
теорема Гаусса - Маркова. В условиях (12а) оценка (14) является наилучшей (в смысле минимума дисперсии) оценкой в классе линейных несмещенных оценок.
Оценка дисперсии 2 ошибок. Обозначим
e = Y - = Y - Х = [I - X (XTX)- 1 XT] Y = BY (16)
вектор остатков (или невязок); B = I - X (XTX)- 1 XT - матрица; можно проверить, что B2 = B. Для остаточной суммы квадратов справедливо соотношение
M = M (n - k -1) 2 ,
откуда следует, что несмещенной оценкой для 2 является
s2 = . (17)
Если предположить, что i в (12) нормально распределены, то справедливы следующие свойства оценок:
1) (n - k - 1) имеет распределение хи квадрат с n-k-1 степенями свободы;
2) оценки и s2 независимы.
Как и в случае простой регрессии, справедливо соотношение:
или
Tss = Ess + Rss , (18)
в векторном виде:
,
где = . Поделив обе части на полную вариацию игреков
Tss = , получим коэффициент детерминации
R2 = (19)
Коэффициент R2 показывает качество подгонки регрессионной модели к наблюдённым значениям yi. Если R2 = 0, то регрессия Y на x1 , ..., xk не улучшает качество предсказания yi по сравнению с тривиальным предсказанием . Другой крайний случай R2 = 1 означает точную подгонку: все ei = 0, т.е. все точки наблюдений лежат на регрессионной плоскости. Однако, значение R2 возрастает с ростом числа переменных (регрессоров) в регрессии, что не означает улучшения качества предсказания, и потому вводится скорректированный (adjusted) коэффициент детерминации
(20)
Его использование более корректно для сравнения регрессий при изменении числа переменных (регрессоров).
Доверительные интервалы для коэффициентов регрессии. Стандартной ошибкой оценки является величина , оценка для которой
sj = , j = 0, 1, ..., k, (21)
где zjj - диагональный элемент матрицы Z. Если ошибки i распределены нормально, то, в силу свойств 1) и 2), приведенных выше, статистика
(22)
распределена по закону Стьюдента с (n - k - 1) степенями свободы, и потому неравенство
<= tp sj , (23)
где tp - квантиль уровня (1 + PД) / 2 этого распределения, задает доверительный интервал для j с уровнем доверияРД.
Проверка гипотезы о нулевых значениях коэффициентов регрессии. Для проверки гипотезы Н0 об отсутствии какой бы то ни было линейной связи между y и совокупностью факторов, Н0: 1 = 2 = ... = k = 0, т.е. об одновременном равенстве нулю всех коэффициентов, кроме коэффициента 0 при константе, используется статистика
F = = = , (24)
распределенная, если Н0 верна, по закону Фишера с k и n - k - 1 степенями свободы. Н0 отклоняется, если
F > F (k, n - k - 1), (25)
где F - квантиль уровня 1 - .
Отбор наиболее существенных объясняющих переменных. Различные регрессии (с различным набором переменных) можно сравнивать по скорректированному коэффициенту детерминации (20): принять тот вариант регрессии, для которого максимален
11. Сезонные колебания
Первая гармоника:
Вторая гармоника: ,
где параметры гармоники равны: ,
, а1=-219,65, а2=31,67;
, b1=-87,36, b2=34,64.
Задание: показать процесс выравнивания сезонных колебаний по ряду Фурье на условных месячных данных о численности персонала фирмы, связанной с переработкой сельскохозяйственной продукции.