- •Анализ данных в Microsoft Excel
- •Описательная статистика
- •Центральная тенденция
- •Свойства среднего
- •Некоторые свойства медианы
- •Характеристики вариации данных
- •Корреляционный анализ
- •Коэффициент корреляции Пирсона
- •Регрессионный анализ
- •Последовательность этапов регрессионного анализа
- •Задачи регрессионного анализа
Практическая работа №1
Лабораторная работа посвящена основам анализа данных, рассмотрены основные характеристики описательной статистики, кратко изложена суть корреляционного и регрессионного анализа. Приведены примеры решения задач в Microsoft Excel.
В этой работе мы рассмотрим некоторые аспекты статистического анализа данных, в частности, описательную статистику, корреляционный и регрессионный анализы.
Цель данной работы - дать самое общее представление о понятиях корреляции, регрессии, а также познакомиться с описательной статистикой. Рассматриваемые примеры намеренно упрощены.
Существует большое разнообразие прикладных пакетов, реализующих широкий спектр статистических методов, их также называют универсальными пакетами или инструментальными наборами. В Microsoft Excel также реализован широкий арсенал методов математической статистики, реализация примеров продемонстрирована именно на этом программном обеспечении.
Следует заметить, что существует сложность использования статистических методов, так же как и статистического программного обеспечения, - для этого пользователю необходимы специальные знания.
Анализ данных в Microsoft Excel
Microsoft Excel имеет большое число статистических функций. Некоторые являются встроенными, некоторые доступны после установки пакета анализа.
Обращение к Пакету анализа. Средства, включенные впакет анализаданных, доступны через командуАнализ данныхменюСервис. Если эта команда отсутствует в меню, в менюСервис/Надстройкинеобходимо активировать пункт"Пакет анализа".
Далее мы рассмотрим некоторые инструменты, включенные в Пакет анализа.
Описательная статистика
Описательная статистика(Descriptive statistics ) - техника сбора и суммирования количественных данных, которая используется для превращения массы цифровых данных в форму, удобную для восприятия и обсуждения.
Цель описательной статистики- обобщить первичные результаты, полученные в результате наблюдений и экспериментов.
Пусть дан набор данных А, представленный в таблице 8.1.
Таблица 8.1. Набор данных А | |
x |
y |
3 |
9 |
2 |
7 |
4 |
12 |
5 |
15 |
6 |
17 |
7 |
19 |
8 |
21 |
9 |
23,4 |
10 |
25,6 |
11 |
27,8 |
Выбрав в меню Сервис"Пакет анализа"и выбрав инструмент анализа"Описательная статистика", получаем одномерный статистический отчет, содержащий информацию оцентральной тенденциии изменчивости или вариации входных данных.
В состав описательной статистикивходят такие характеристики:среднее; стандартная ошибка;медиана; мода;стандартное отклонение;дисперсиявыборки;эксцесс; асимметричность; интервал;минимум; максимум; сумма; счет.
Отчет "Описательная статистика" для двух переменных из набора данных А приведен в таблице 8.2.
Таблица 8.2. Описательная статистика для набора данных А | ||
|
x |
y |
Среднее |
6,5 |
17,68 |
Стандартная ошибка |
0,957427108 |
2,210922382 |
Медиана |
6,5 |
18 |
Стандартное отклонение |
3,027650354 |
6,991550456 |
Дисперсия выборки |
9,166666667 |
48,88177778 |
Эксцесс |
-1,2 |
-1,106006058 |
Асимметричность |
0 |
-0,128299221 |
Интервал |
9 |
20,8 |
Минимум |
2 |
7 |
Максимум |
11 |
27,8 |
Сумма |
65 |
176,8 |
Счет |
10 |
10 |
Наибольший (1) |
11 |
27,8 |
Наименьший (1) |
2 |
7 |
Уровень надежности (95,0%) |
2,16585224 |
5,001457714 |
Рассмотрим, что же представляют собой характеристики описательной статистики.
Центральная тенденция
Измерение центральной тенденциизаключается в выборе числа, которое наилучшим способом описывает все значения признака набора данных. Такое число имеет как свои достоинства, так и недостатки. Мы рассмотрим две характеристики этого измерения, а именно:среднее значениеимедиану.
Главная цель среднего- представление набора данных для последующего анализа, сопоставления и сравнения.
Значение среднеголегко вычисляется и может быть использовано для последующего анализа. Оно может быть вычислено для данных, измеряемых по интервальной шкале, и для некоторых данных, измеряемых по порядковой шкале.Среднее значениерассчитывается как среднее арифметическое набора данных: сумма всех значений выборки, деленная на объем выборки. "Сжимая" данные таким образом, мы теряем много информации.
Среднее значениеочень информативно и позволяет делать вывод относительно всего исследуемого набора данных. При помощисреднегомы получаем возможность сравнивать несколько наборов данных или их частей.
При анализе данных средним не следует злоупотреблять, необходимо учитывать его свойства и ограничения. Известны характеристики "средняя температура по больнице" или "средняя высота дома", показывающие некорректность использования этой меры центральной тенденциидля некоторых случаев.