- •2. Базовые понятия статистики
- •2.1. Генеральная совокупность и выборка
- •2.2. Способы представления и обработки статистических данных
- •2.3. Вычисление выборочных характеристик
- •Вопросы для самопроверки
- •Упражнения и задачи
- •3. Статистические выводы: оценки и проверка гипотез
- •3.1. Точечные оценки и их свойства
- •3.2. Свойства выборочных оценок
- •3.3. Интервальные оценки
- •3.3.1. Доверительный интервал для математического ожидания нормальной св при известной дисперсии
- •3.3.2. Доверительный интервал для математического ожидания нормальной св при неизвестной дисперсии
- •3.3.3. Доверительный интервал для дисперсии нормальной св
- •3.4. Статистическая проверка гипотез
- •3.4.1. Основные понятия
- •3.4.2. Критерии проверки. Критическая область
- •3.5. Примеры проверки гипотез
- •3.5.1. Проверка гипотезы о математическом ожидании нормальной св при известной дисперсии
- •3.5.2.Проверка гипотезы о математическом ожидании нормальной св при неизвестной дисперсии.
- •3.5.3. Проверка гипотезы о величине дисперсии нормальной св
- •3.5.4Проверка гипотезы о равенстве математических ожиданий двух нормальных св при известных дисперсиях
- •3.5.5.Проверка гипотезы о равенстве математических ожиданий двух нормальных св при неизвестных дисперсиях
- •3.5.6. Проверка гипотезы о равенстве дисперсий двух нормальных св
- •3.5.7. Проверка гипотезы о значимости коэффициента корреляции
- •Вопросы для самопроверки
- •Упражнения и задачи
- •4. Парная линейная регрессия
- •4.1. Взаимосвязи экономических переменных
- •4.2. Суть регрессионного анализа
- •4.3. Парная линейная регрессия
- •4.4. Метод наименьших квадратов
- •Вопросы для самопроверки
3. Статистические выводы: оценки и проверка гипотез
Статистические выводы — это заключения о генеральной совокупности (т.е. о законе распределения исследуемой СВ и его параметрах либо о наличии и силе связи между исследуемыми переменными) на основе выборки, случайно отобранной из генеральной совокупности. Например, анализ дохода (X) населения некоторого двухмиллионного города реально может быть осуществлен только на базе выборки ограниченного объема (пусть п = 1000). В данном случае не составит большого труда оценить средний доход = и разброс = / n в доходах субъектов, попавших в выборку. Далее встает вопрос: можно ли считать, что полученные значения будут такими же для всего города? Другими словами, обобщение результатов, полученных по выборке, на генеральную совокупность и есть суть статистических выводов.
При исследовании различных параметров генеральной совокупности на основе выборки возможно лишь получение оценок этих параметров. Эти оценки строятся на основе ограниченного набора данных, что влечет за собой вероятность погрешности. Заметим, что значения оценок могут изменяться от выборки к выборке. Процесс нахождения оценок по определенному правилу (формуле) будем называть оцениванием. Цель любого оценивания — получение наиболее точного значения оцениваемой характеристики.
Можно выделить два типа оценивания: оценивание вида распределения и оценивание параметров распределения. В качестве оценки вида распределения (в силу закона больших чисел) можно взять выборочное распределение, подсчитав частоты попадания рассматриваемой СВ в заданные подынтервалы интервального статистического ряда. Процедура оценивания всегда однотипна. На основе выборки с помощью соответствующей формулы рассчитывается оценка исследуемой характеристики. В качестве оценок параметров распределения генеральной совокупности берутся их выборочные оценки. При этом различают два вида оценок — точечные и интервальные.
3.1. Точечные оценки и их свойства
Пусть оценивается некоторый параметр 0 наблюдаемой СВ X генеральной совокупности. Пусть из генеральной совокупности извлечена выборка объема n: , , …, , по которой может быть найдена оценка параметра θ. Например, для нормального закона распределения с плотностью вероятности
f(x)=
параметрами являются математическое ожидание m и среднее квадратическое отклонение σ.
Точечной оценкой θ* параметра θ называется числовое значение этого параметра, полученное по выборке объема n.
Например, оценками m и σ(x) могут быть = = и
= = соответственно.
Нетрудно заметить, что оценка θ* является функцией от выборки, т.е. = ( , , …, ). Так как выборка носит случайный характер, то оценка является СВ, принимающей различные значения для различных выборок. Любую оценку = ( , , …, ) называют статистикой или статистической оценкой параметра θ.
Число ε такое, что называется точностью оценки. Естественно стремление получить по возможности наиболее точную оценку при данном объеме выборки.
Приведем свойства, выполнимость которых желательна для того, чтобы оценка была признана удовлетворительной.
В силу случайности точечной оценки она может рассматриваться как СВ со своими числовыми характеристиками – математическим ожиданием М( ) и дисперсией D( ). Чем ближе M( ) к истинному значению θ и чем меньше D( ), тем лучше будет оценка (при прочих равных условиях). Таким образом, качество оценок характеризуется следующими основными свойствами : несмещенность, эффективность и состоятельность.
Оценка называется несмещенной оценкой параметра θ, если ее математическое ожидание равно оцениваемому параметру: M( )=θ.
Хотя каждая отдельная оценка лишь в редких случаях совпадает с соответствующей характеристикой генеральной совокупности, при «аккуратном» оценивании многократное осуществление выборок одного объема п обеспечивает совпадение среднего значения оценки по всем выборкам с истинным значением оцениваемого параметра.
Разность М( ) —θ называется смещением или систематической ошибкой оценивания. Для несмещенных оценок систематическая ошибка равна нулю.
Свойство несмещенности оценки является важнейшим, но не единственным. Зачастую существует несколько возможных оценок одного и того же параметра. Какая из них лучше? Очевидно, выбор будет сделан в пользу той из них, вероятность совпадения которой с истинным значением оцениваемого параметра выше. Оценка должна иметь такую плотность вероятности, которая наиболее «сжата» вокруг истинного значения оцениваемого параметра. Нетрудно заметить, что в этом случае она будет иметь наименьшую среди других оценок дисперсию.
Оценка называется эффективной оценкой параметра θ, если ее дисперсия D( ) меньше дисперсии любой другой альтернативной оценки при фиксированном объеме выборки n, т.е. D( )= . На рис. 3.1 приведена схема, наглядно демонстрирующая преимущество эффективной оценкой по сравнению с неэффективной оценкой параметра θ.
Каждая отдельная эффективная оценка не гарантирует того, что она дает точное значение исследуемого парамет-
ра, чем менее эффективная. Однако вероятность такого исхода превышает 0,5.
Оценка называется асимптотически эффективной, если с увеличением объема выборки ее дисперсия стремится к нулю, т.е. D( n)→0 при n→∞
( индекс n в оценке n применяется для подчеркивания объема выборки).
Оценка n называется состоятельной оценкой параметра θ, если n сходится по вероятности к θ при n→∞, т.е. для любого ε > 0 при n→∞ P( < ε→1. Другими словами, состоятельной называется такая оценка, которая дает истинное значение при достаточно большом объеме выборки вне зависимости от значений входящих в нее конкретных наблюдений.
С
f(θ*)
f(θ*)
хема возможного улучшения точности (несмещенности) состоятельной оценки приведена на рис. 3.2.
рис. 3.1
рис. 3.2
В большинстве случаев несмещенная оценка является и состоятельной. С другой стороны, состоятельные оценки (возможно, не являющиеся несмещенными при малых объемах выборок) с увеличением объема выборки будут приближаться и лежать все «плотнее» к истинному значению (рис. 3.2). Это указывает на асимптотическую несмещенность состоятельной оценки. Поэтому при невозможности получения несмещенной оценки целесообразно найти хотя бы состоятельную оценку.
Справедливо следующее утверждение : если M( n)→θ и D( n)→0 при n→∞, то n – состоятельная оценка параметра θ.
Оценки, являющиеся линейными функциями от выборочных наблюдений, называются линейными.
Очень важную роль в эконометрике играют так называемые наилучшие линейные несмещенные оценки, или коротко BLUE-оценки (Best Linear Unbiased Estimators). Такие оценки, являясь линейными и несмещенными, имеют наименьшую дисперсию среди всех возможных оценок данного класса.
Наиболее употребляемыми методами нахождения точечных оценок являются метод моментов, метод максимального правдоподобия, метод наименьших квадратов, описание которых можно найти в любом учебнике по математической статистике.