Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
DataMining.pdf
Скачиваний:
1313
Добавлен:
25.02.2016
Размер:
3.32 Mб
Скачать

Основы анализа данных

В этой лекции мы рассмотрим некоторые аспекты статистического анализа данных, в частности, описательную статистику, корреляционный и регрессионный анализы. Статистический анализ включает большое разнообразие методов, даже для поверхностного знакомства с которыми объема одной лекции слишком мало. Цель данной лекции - дать самое общее представление о понятиях корреляции, регрессии, а также познакомиться с описательной статистикой. Примеры, рассмотренные в лекции, намеренно упрощены.

Существует большое разнообразие прикладных пакетов, реализующих широкий спектр статистических методов, их также называют универсальными пакетами или инструментальными наборами. О таких наборах мы подробно поговорим в последнем разделе курса. В Microsoft Excel также реализован широкий арсенал методов математической статистики, реализация примеров данной лекции продемонстрирована именно на этом программном обеспечении.

Следует заметить, что существует сложность использования статистических методов, так же как и статистического программного обеспечения, - для этого пользователю необходимы специальные знания.

Анализ данных в Microsoft Excel

Microsoft Excel имеет большое число статистических функций. Некоторые являются встроенными, некоторые доступны после установки пакета анализа. В данной лекции мы воспользуемся именно этим программным обеспечением.

Обращение к Пакету анализа. Средства, включенные в пакет анализа данных, доступны через команду Анализ данных меню Сервис. Если эта команда отсутствует в меню, в меню Сервис/Надстройки необходимо активировать пункт "Пакет анализа".

Далее мы рассмотрим некоторые инструменты, включенные в Пакет анализа.

Описательная статистика

Описательная статистика (Descriptive statistics ) - техника сбора и суммирования количественных данных, которая используется для превращения массы цифровых данных в форму, удобную для восприятия и обсуждения.

Цель описательной статистики - обобщить первичные результаты, полученные в результате наблюдений и экспериментов.

Пусть дан набор данных А, представленный в таблице 8.1.

Таблица 8.1. Набор данных А

xy

84

39

27

412

515

617

719

821

923,4

1025,6

1127,8

Выбрав в меню Сервис "Пакет анализа" и выбрав инструмент анализа "Описательная статистика", получаем одномерный статистический отчет, содержащий информацию о центральной тенденции и изменчивости или вариации входных данных.

В состав описательной статистики входят такие характеристики: среднее; стандартная ошибка; медиана; мода; стандартное отклонение; дисперсия выборки; эксцесс; асимметричность; интервал; минимум; максимум; сумма; счет.

Отчет "Описательная статистика" для двух переменных их набора данных А приведен в таблице 8.2.

Таблица 8.2. Описательная статистика для набора данных А

 

x

y

 

 

 

Среднее

6,5

17,68

Стандартная ошибка

0,957427108

2,210922382

Медиана

6,5

18

Стандартное отклонение

3,027650354

6,991550456

Дисперсия выборки

9,166666667

48,88177778

Эксцесс

-1,2

-1,106006058

Асимметричность

0

-0,128299221

Интервал

9

20,8

 

 

 

85

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]