отчет 1 задание
.docxПредварительное исследование данных
-
Средствами встроенных функций Excel получили описательную статистику (максимум, минимум, среднее, стандартное отклонение) по переменной Цена
Вывод: максимум сильно отличается от среднего значения.
-
Построили точечный график для цены(): выброс есть.
-
Построили точечный график для цены в зависимости от числа комнат. Выброс соответсвует квартире с номером 216.
-
Построили точечный график для цены в зависимости от общей площади.
-
Построили сводную таблицу и диаграмму с включением Района и Типа дома.
-
Сделать выводы в отношении качества и характеристик данных.
В массиве с данными есть выбросы в небольшом количестве, большая их части приходится на 5 районов (Центр, КМР, ЮМР, ФМР, ЧИР). В остальных районах цены стабильны и не сильно различаются, поэтому и не выделяются по количеству выбросов. Данные являются качественными и выглядят достоверно (Виктория Михайловна сказала, что данные настоящие, а не придуманные)
-
Определили интервалы задания гистограммы, построили функцию частоты для переменной Цена.
Вывод: большая часть цен в 5000
-
Изменили диапазон интервалов (убрали интервалы-выбросы), построили функцию частоты для переменной Цена.
Вывод: с изменением диапазонов график стаял более информативным
-
На копии листа удалили данные с выбросами по цене. Получили описательную статистику (максимум, минимум, среднее, стандартное отклонение) по переменной Цена, построили функцию частоты.
Из выборки удалили записи 216(41706 тыс. руб.) и 1552(10260 тыс. руб.)
-
Добавили к данным столбец Нормализованная цена (функция Нормализация).
Нормализованные значения бывают отрицательными.
-
Задали диапазон интервалов, построили функцию частоты для нормализованной цены.
-
В следующих столбцах построили плотность вероятности нормального распределения и частоты для нормального распределения.
-
Графически сравнили полученные распределения.
-
Сделать вывод в отношении нормальности распределения цен на квартиры. Вывод: в районе нуля нормализованные цены близки к Нормальному распределеню . Чем выше значение, тем сильнее цены отклоняются от этого распределения. Чем шире исходная выборка, тем распределение ближе к Нормальному.
Пакет анализа Excel
-
Средствами пакета анализа Excel получили описательную статистику по: Общая площадь, Жилая, Кухня, Цена.
-
Построили гистограммы для переменных Общая площадь, Жилая, Кухня, Цена.
-
Рассчитали парные коэффициенты корреляции для переменных Общая площадь, Жилая, Кухня, Цена. Цена больше всего зависит от общей площади.
-
Скопировали таблицу на новый лист, удалив оба выброса.
-
Отсортировали по числу комнат.
-
Построили точечные графики для цены в зависимости от общей площади по отдельности для групп.
Цена растет почти пропорционально площади.
-
Рассчитали парные коэффициенты корреляции для переменных Общая площадь, Жилая, Кухня, Цена отдельно для одно-, двух-, трехкомнатных квартир.
-
Сделать выводы в отношении зависимости цены для каждой группы.
Коэффициент корреляции - это статистический показатель зависимости двух случайных величин.
Для всех квартир в общей степени на цену влияет общая площадь. В однокомнатных в двухкомнатный квартирах жилая площадь влияет в большей степени, чем кухонная. В трехкомнатных квартирах площадь кухни имеет большее значение, чем в остальных группах.