- •Исследование влияния различных факторов на потребление алкоголя
- •Корреляционный анализ
- •Парные коэффициенты корреляции
- •Частные коэффициенты корреляции
- •Множественный коэффициент корреляции
- •Регрессионный анализ Линейная модель
- •Нелинейная (степенная) модель
- •Компонентный анализ
- •Кластерный анализ
- •Дискриминантный анализ
- •Приложение.
НИУ-ВШЭ
Исследование влияния различных факторов на потребление алкоголя
Бакалавриат, факультет экономики(ОСАДД, группа 31Д)
Подготовила:
Красильникова Е.В.
Москва – 2011
Исследование влияния различных факторов на потребление алкоголя
В данной работе будет показана связь расходов домохозяйств на алкогольные напитки и разных социально-экономических показателей, характеризующих уровень жизни в Российской Федерации. Задачами исследования является проведение корреляционного и регрессионного анализа. Это исследование основано на данных по 79 регионам Российской Федерации за 2009 год, взятых с официального сайта Федеральной Службы Государственной Статистики.
Результирующей переменной ниже будет называться Y - Расходы на алкогольные напитки (в процентах от общего объема расходов на потребление домашних хозяйств).
Факторных переменных в данном исследовании шесть:
X1 - Численность населения с денежными доходами ниже прожиточного минимума (в процентах от общей численности населения). Эта переменная характеризует общее социально-экономическое положение и расслоение населения в регионе.
X2 – Реальная начисленная заработная плата (отношение номинальной начисленной заработной платы к среднегодовому индексу потребительских цен). Эта переменная показывает общую покупательную способность, материальное состояние населения в регионе и уровень жизни.
X3 – Уровень безработицы (в процентах). Характеризует экономическую ситуацию в регионе.
X4 – Соотношение браков и разводов (количество разводов на 1000 браков). Данная переменная характеризует степень культурного развития общества (чем меньше этот показатель, тем общество более традиционное).
X5 - Число зарегистрированных преступлений на 100 человек населения. Эта переменная была включена в анализ, так как бытует мнение, что алкоголь и преступления тесно связаны.
X6 - Общая площадь жилых помещений, приходящаяся в среднем на одного жителя (в квадратных метрах). Ещё один показатель, характеризующий уровень жизни населения.
Прежде чем приступить к основной части анализа, нужно проверить данные о потреблении алкоголя на нормальный закон распределения. Для этого были рассчитаны необходимые показатели (мода, медиана, среднее значение, коэффициенты эксцесса и асимметрии):
Мо=1,9
Ме=1,6
=1,594
Kэксцесса=-0,482
Kасимметрии=1,679
Как видно, коэффициенты эксцесса и асимметрии малы (меньше 2), среднее и медиана находятся в одном интервале (см. гистограмму ниже), мода незначительно отличается от среднего значения и медианы.
Проверим гипотезу о нормальном законе распределения случайной величины с помощью χ2критерия Пирсона.
Гипотеза о нормальном законе распределения не отвергается.
Для подтверждения заключения о нормальности распределения была построена гистограмма.
Для проведения дальнейшего анализа необходимо проверить данные на выбросы (аномальные значения).
Воспользуемся правилом «трёх сигм», которое заключается в том, что из выборки исключаются те элементы, которые не входят в интервал . В данном случае была выявлена одна аномалия: в этот интервал [0,225; 2,955] входят все значения, кроме наблюдения по Ингушетии, Y31=0.
Эта же аномалия была выявлена и при помощи построения ящичковой диаграммы.
После исключения аномальных значений из выборки необходимо провести тест Титьена-Мура, который подтвердит или опровергнет предположение об аномальности наблюдения. Для этого нужно вычислить статистику , которая в данном случае равна L=0,841, что превышает критическое значение Lдоп=0,820, рассчитанное для N=50 и n=1 при уровне значимости α=5%. Но в этом исследовании N=79, поэтому нельзя делать однозначные выводы только по этому тесту.
В итоге было принято исключить этот выброс, несмотря на то, что тест Титьена-Мура не подтвердиланомальность наблюдения. Наблюдение по Ингушетии могло быть исключено в ходе содержательного контроля, так как Ингушетия – самый молодой и маленький по площади (не считая Москву и Санкт-Петербург) регион, где преобладающей религией является ислам.
Вот как стало выглядеть распределение величины Y после удаления аномалий:
Мо=1,9
Ме=1,6
=1,614
Kэксцесса’=-0,42<Kэксцесса = -0,482
Kасимметрии’=0,667<Kасимметрии = 1,679
Коэффициент эксцесса уменьшился, коэффициент асимметрии уменьшился почти в 2,5 раза.
Поскольку после исключения выброса фактическое распределение стало визуально сильнее походить на нормальное, можно сделать вывод о том, что наблюдение по Ингушетии действительно было аномальным.
Также это наблюдение однозначно исключается при логарифмировании переменной Y, так как 0 не входит в область определения функции натурального логарифма. Логарифмирование будет нужно в дальнейшем для построения нелинейной (степенной) модели.