Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
ответы_статистика.doc
Скачиваний:
2
Добавлен:
22.04.2019
Размер:
1.37 Mб
Скачать

3.4. Выбросы и стратегия их обработки

Ошибки - некорректно введенные данные

Отличающиеся значения – Данные не относятся к исследуемому явлению. И исключительно явление.

Выброс (outlier) определяется отдаленностью отдельного наблюдения от основной группы данных. Критическое значение такой отдаленности наблюдения от медианы составляет 3 раза расстояние между верхней и нижней квартилями. В случае одной переменной, наиболее распространенным графическим методом диагностики выбросов является boxplot. В случае многовариантного анализа, определение выбросов очень сложно.

Для определения выбросов в линейной регрессии наиболее простым и информативным методом является визуальный анализ графика выбросы остаются выбросами).

  1. Вариационные ряды.

    1. Понятие и виды вариационных рядов.

Вариационный ряд – упорядоченное распределение единиц совокупности.

Вар. ряд = ряд распределения.

Бывают:

  • ранжированный( если объектов немного) – распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака.

  • дискретный(Если признак принимает небольшое число значений) – ряд, в основу которого положены признаки с прерывным значением.

  • интервальный (Если признак может принимать большое количество значений или эти значения могут быть дробными) – если признак имеет непрерывное значение

    1. Построение вариационных рядов и их структурные характеристики (медиана, мода, квартили, квинтили…).

Форма построения вариационного ряда зависит от характера изменения изучаемого признака, он может быть построен в форме дискретного ряда или в форме интервального ряда.

По характеру вариации значений признака различают:

  • признаки с прерывным изменением (дискретные);

  • признаки с непрерывным изменением (непрерывные).

  • Мода (M0) – наиболее часто встречающееся значение признаков совокупности.

Проблема расчета данного показателя связана с интервальным вариационным рядом.

Сначала находится модальный интервал (интервал, которому соответствует максимальная частота).

, где

ХМ0о – нижняя граница модального интервала;

h – величина интервала;

fMo – 1 - частота интервала, предшествующего модальному;

fMo – частота модального интервала;

fMo + 1 - частота интервала, следующего за модальным.

  • Медианае) – значение признака у единицы, делящей ранжированный ряд пополам.

При определении медианы по ранжированному ряду без группировки

Если число единиц совокупности четное, то значение медианы определяется как среднее арифметическое двух центральных значений.

Если медиана рассчитывается по интервальному вариационному ряду, то сначала находят медианный интервал, а затем по формуле рассчитывается значение медианы.

Медианный интервал – это первый интервал, в который попадает 50% совокупности. , где

ХМе – нижняя граница медианного интервала;

f’Me-1 – накопленная частота интервала, предшествующего медианному;

fMe – частота медианного интервала;

∑ fi - сумма накопленных частот.

  • Квартили:

Значения признака, которые делят совокупность на 4 равные по числу единиц части.

- первый, нижний квартиль.

- третий, верхний квартиль.

Значение Q1 означает, что у 25% единиц совокупности значение показателя меньше квартильного, а у 75% - больше.

Значение Q3: у 25% единиц совокупности значение больше данного.

Межквартильное расстояние Q3 - Q1 характеризует размах вариации в центре распределения. На этом интервале находится 50% единиц изучаемой совкупности.

  • Квинтили:

Делят выборку на 5 равных частей.

K1 = + i

  • Сикстили

Делят выборку на 6 равных частей.

S1 = + i

  • Децили

Децили — варианты, делящие ранжированный ряд на десять равных частей. Первый дециль отсекает 1/10 часть совокупности, а девятый дециль отсекает 9/10 частей. Рассчитываются децили по формулам:

D1 = + i

  • Перцентили

Перцентили — варианты, которые делят ранжированную совокупность на 100 частей.

P1 = + i