Vkiad
.pdfH74.
Задачи разведочного анализа данных: 1) Анализ однородности данных. 2) Анализ независимости выборочных наблюдений.
Методы РАД:
Задача 1 предполагает выявление неоднородной структуры данных, а также наличие аномальных наблюдений, модель которых отличается от модели основной массы выборочных наблюдений. РАД включает следующие средства описания данных: 1) Дескриптивный анализ выборок. 2) Визуализация выборки. 3) Анализ гистограмм. 4) Анализ графика ящик с усами. 5) анализ графика «квантиль-квантиль».
Задача 2 известна как задача сериальной корреляции и более типична для временных рядов. При анализе пространственных данных независимость выборочных наблюдений обеспечивается случайным, а не пристрастным или детерминированным механизмом формирования выборки. В последнем случае моделью выборки не может быть некоторый закон распределения вероятностей. Для проверки такого типа независимости наблюдений применяются тесты серий.
H75.
H76.
Всё что есть в лекциях в вопросе 73.
Зачем же нам ящик с усами, если существует график плотности? Все дело в компактности информации. Ящики очень удобно показывать группами.
Они позволяют быстро сравнивать не только по медианным значениям, но и (что намного важнее) по нижнему и верхнему квартилю, а также оценивать дисперсию и количество выбросов.
H77.
Подраспределениемпонимаютсоотвемеждунаблюдаемымиствие |
nx – количествонаблюдений,прикоторых |
|
варихчастостямиантами.Пусть |
|
|
случзначенияпараметрайные |
Х меньше x. Часобытиятость |
X<x равна nx/n . |
Этоотношеявляетсяфуноткцией |
x иотобъемавыборки: |
Fn(x)=nx /n. |
Величина Fn(x)обладаетсвойсфункцираспределениявами: |
Fn(x) |
|
неубывающаяфункция,еезначенияпринадлежатотрезку[0;1]; |
|
|
Функция Fn(x)определяетсяпоЭДэкспериментальные( данные)В.отличие |
|
|
отэмпирическойфункции |
Fn(x)функциюраспределения |
F(x)генеральной |
совокупносназываюттеорефункциейтираспределенияческой,он |
а |
|
характеризуетнечастовероятность, события |
|
X<x.ИзтеоремыБернулли |
вытекает,чточастость |
Fn(x)стремитсяповероятностик |
F(x)при |
неограниченномувеличении |
n.Следовательно,прибольшомобъеме |
|
наблюдфункциюйтеоретическую |
распределения F(x)можнозаменить |
|
эмпирическойфункцией |
Fn(x). |
|
H78.
Если - коэффициент сдвига (вещественное число), то:
Математическое ожидание =
Мода –
Медиана –
Коэффициент асимметрии – 0
Коэффициент эксцесса - 0
H79.
При аномальных наблюдениях:
выборочное среднее существенно отличается от медианы; выборочная дисперсия имеет распределение не (хи -квадрат);
коэффициенты асимметрии и эксцесса существенно отличаются от нуля.
H80.
Дескриптивный анализ выборок, визуализация выборки, анализ гистограмм для каждого признака, анализ графика «ящик с усами», анализ графика «квантиль-квантиль».
H81.
I82.
I83.
I84.
I85.
I86.