Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Информатика. Учебники. Современные компьютерные технологии

.pdf
Скачиваний:
160
Добавлен:
20.02.2016
Размер:
3.03 Mб
Скачать

6.8. Технологии решения задач дисперсионного, корреляционного и регрессионного анализа

Технология решения задач дисперсионного анализа

Известно, что методы дисперсионного анализа используются для оцен-

ки достоверности различий между несколькими группами наблюдений. Зада-

ча дисперсионного анализа заключается в исследовании воздействия на из-

меняемую случайную величину одного или нескольких независимых факто-

ров, имеющих несколько градаций.

В MS Excel для проведения однофакторного дисперсионного анализа применяется инструмент Однофакторный дисперсионный анализ. Кроме это-

го инструмента в MS Excel есть инструменты Двухфакторный дисперсион-

ный анализ с повторениями и Двухфакторный дисперсионный анализ без по-

вторений.

Для выполнения дисперсионного анализа необходимо выполнить сле-

дующую последовательность операций:

сформировать таблицу данных таким образом, чтобы в каждом столбце были представлены данные, соответствующие одному значению исследуемого фактора, при этом столбцы должны рас-

полагаться в порядке возрастания (убывания) исследуемого фак-

тора;

выполнить команду меню Сервис - Анализ данных;

в диалоговом окне Анализ данных в списке Инструменты анализа выбрать инструмент Однофакторный дисперсионный анализ,

щелкнуть на кнопке ОК;

в раскрывшемся окне диалога поле Входной интервал ввести ссылку на диапазон исследуемых данных, в группе Группировка установить переключатель По столбцам. Ввести ссылку на вы-

ходной диапазон, в который будут выведены результаты анализа,

щелкнуть на кнопке ОК.

171

Выходной диапазона содержит следующие результаты: средние, дис-

персии, критерии Фишера и др.

Влияние исследуемого фактора определяется по величине значимости критерия Фишера, находящегося в таблице Дисперсионный анализ на пере-

сечении строки Между группами и столбца Р-значение. Если величина зна-

чимости Р – значение меньше 0,05, то критерий Фишера значим и, следова-

тельно, влияние исследуемого фактора существует.

Упражнение 8

Необходимо выявить, влияет ли время года на количество совершае-

мых преступлений. В таблице приведена статистика по шести регионам,

В этой задаче исследуемым фактором является время года.

Решение:

подготовим на рабочем листе исходные данные для расчетов в соответствии с таблицей (рис. 23);

Рис. 23

выполним команду меню Сервис - Анализ данных. Выберем из списка диалогового окна Анализ данных Однофакторный дис-

персионный анализ;

172

в раскрывшемся диалоговом окне Однофакторный дисперсион-

ный анализ установим параметры как показано на рис. 24.

Рис. 24

В результате решения задачи на рабочем листе будет сформирована таблица Однофакторный дисперсионный анализ (рис. 25).

Рис. 25

В этой таблице на пересечении строки Между группами и столбца Р – Значение записано число 0,000268401. Эта величина Р – Значение меньше

0,05. Следовательно, критерий Фишера значим. А так как мы оценивали раз-

личие между тремя группами наблюдений, то следует сделать вывод, что

173

влияние фактора сезона на количество преступлений подтверждено стати-

стически.

Технология решения задач корреляционного анализа

Одной из задач статистического моделирования является изучение свя-

зи между некоторыми наблюдаемыми переменными. Результаты, получен-

ные при таком исследовании, позволяют прогнозировать развитие ситуации в случае изменения конкретных характеристик изучаемого объекта или про-

цесса. Задача подобного исследования решается методами корреляционного анализа. Целью решения задачи является получение корреляционной матри-

цы.

В MS Excel для целей корреляционного анализа служит инструмент Корреляция, который позволяет получить корреляционную матрицу, содер-

жащую коэффициенты корреляции между различными параметрами. Корре-

ляционная матрица – это квадратная таблица, на пересечении соответствую-

щих строк и столбцов которой располагаются корреляционные коэффициен-

ты.

Для выполнения корреляционного анализа необходимо выполнить сле-

дующую последовательность операций:

выполнить команду меню Сервис - Анализ данных;

в списке Инструменты анализа диалогового окна Анализ дан-

ных выбрать строку Корреляция;

в раскрывшемся окне диалога Корреляция в поле Входной ин-

тервал ввести адресную ссылку на диапазон, содержащий анали-

зируемые данные (входной интервал должен состоять не менее чем из двух столбцов), установить соответствующий переключа-

тель Группировка, установить переключатель Параметры вывода

и ввести адрес верхней левой ячейки, с которой будет начинаться диапазон для вывода результатов вычислений.

щелкнуть на кнопке ОК.

174

В результате выполнения вычислений в выходной диапазон будет по-

мещена корреляционная матрица.

Упражнение 9

Есть статистические данные, регистрирующие количество дел по пре-

ступлениям и количество осужденных (рис. 26).

Рис. 26

Требуется определить, существует ли взаимосвязь между количеством дел и количеством осужденных.

Решение:

введем в диапазон рабочего листа (А27:В23) данные приведенной таблицы);

выполним команду меню Сервис - Анализ данных;

в раскрывшемся окне диалога Анализ данных из списка выберем

Корреляция;

в окне диалога Корреляция:

oв группе Входные данные в поле Входной интервал укажем адресную ссылку на диапазон, содержащий исходную таб-

лицу (А27:В23), установим переключатель Группирование по столбцам и установием флажок Метки в первой строке;

175

oв группе Параметры вывода установим переключатель

Входной интервал и введем адресную ссылку на ячейку,

которая будет началом диапазона выходного интервала

(Е2) (рис. 27);

Рис. 27

o Щелкнем на ОК.

После выполнения вычислений в диапазон A36:C37 будет выведена ре-

зультирующая корреляционная матрица (рис. 28).

Рис. 28

Корреляционная матрица является треугольной с единичной диагона-

лью. На самом деле она должна рассматриваться как симметричная, т.е. rij = rji .

Из анализа полученной корреляционной матрицы видно, что коэффи-

циент корреляции между количеством дел и и количеством осужденных r= 0,94696203. Таким образом, существует сильная прямая линейная связь между количеством дел и количеством осужденных.

176

Технология решения задач регрессионного анализа

Важную роль при исследовании взаимосвязей между статистическими выборками кроме корреляционного и дисперсионного анализа играет регрес-

сионный анализ. Регрессия позволяет проанализировать воздействие на ка-

кую-либо зависимую переменную одной или более независимых переменных и позволяет установить аналитическую форму (модель) этой зависимости в виде аппроксимирующего полинома.

Если рассматривается зависимость между одной зависимой перемен-

ной Y и несколькими независимыми X1, X2, …, Xn, то речь идет о множест-

венной линейной регрессии. В этом случае уравнение регрессии имеет вид:

Y = a0 + a1X1 + a2X2 +…+anXn,

где a1, a2, …, an - коэффициенты при независимых переменных, которые нужно вычислить (коэффициенты регрессии), a0 –константа.

При построении регрессионной модели важнейшими моментами явля-

ются оценка ее адекватности (эффективности) и значимости, на основании которых можно судить о возможности применения в практике полученной модели.

Мерой оценки адекватности регрессионной модели является коэффи-

циент детерминации R2 (R-квадрат), который определяет, с какой степенью точности полученное уравнение регрессии аппроксимирует исходные дан-

ные.

Значимость регрессионной модели оценивается с помощью критерия Фишера (F – критерия). Если величина F – критерия значима (р < 0,05), то регрессионная модель является значимой.

В MS Excel можно аппроксимировать экспериментальные данные линейным уравнением до 16 порядка: Y = a0 + a1X1 + a2X2 +…+a16X16.

Для вычисления коэффициентов регрессии служит инструмент Регрес-

сия, который можно включить следующей последовательностью операций:

177

выполнить команду Сервис - Анализ данных;

в раскрывшемся окне диалога Анализ данных выбрать из списка строку Регрессия – раскроется окно диалога Регрессия;

в группе Входные данные в поле Входной интервал Y указать адрес-

ную ссылку на диапазон, содержащий значения зависимой перемен-

ной, а в поле Входной интервал Х – ссылку на диапазон, содержащий значения независимых переменных, т.е. переменных, влияние кото-

рых на зависимую переменную Y оценивается. Установить флажок

Метки, если исходная таблица имеет названия столбцов и флажок

Константа-ноль, если а0=0;

в группе Параметры выхода указать адресную ссылку на ячейку ра-

бочего листа, которая будет являться верхней левой ячейкой резуль-

тирующей таблицы;

если необходимо получить визуальную картинку отличия экспери-

ментальных точек от предсказанных регрессионной моделью, то ус-

тановить флажок График подбора.

Если нужно получить график нормальной вероятности, то устано-

вить флажок График нормальной вероятности.

В выходном диапазоне после выполнения вычислений отображаются результаты дисперсионного анализа, коэффициенты регрессии, стандартная погрешность вычисления Y, среднеквадратичные отклонения, количество наблюдений, стандартные погрешности для коэффициентов.

Значения коэффициентов регрессии размещаются в столбце Коэффициенты:

Y- пересечение a0;

X1 - a1;

X2 – a2 и т.д.

В столбце Р – Значение содержится оценка достоверности отличия со-

ответствующих коэффициентов от нуля. Если P > 0,05, то коэффициент мож-

178

но считать нулевым. Это означает, что соответствующая независимая пере-

менная практически не влияет на зависимую переменную.

Значение R – квадрат определяет, с какой степенью точности регресси-

онное уравнение будет аппроксимировать экспериментальные данные. Если

R – квадрат > 0,95, то точность аппроксимации высокая. При 0,8< R – квад-

рат < 0,95 аппроксимация удовлетворительная. В случае, когда R – квадрат

<0,6, точность аппроксимации недостаточна и модель требует улучшения.

Упражнение 10

Имеются статистические данные о факторах доказательности преступ-

ления и судебным заключением, приведенные в таблице (Рис. 29).

Требуется найти коэффициенты регрессии для независимых перемен-

ных, определяющих заключение суда и построить уравнение регрессии.

Рис. 29

7.Тема 7. Технологии подготовки гипертекстовых документов для публикации в Интернет

7.1.Понятие гипертекста

Гипертекст (hypertext) – это текст особого типа, в котором присутству-

ют ссылки на другие web – страницы или документы. В окне браузера гипер-

текст (гиперссылка) обычно подчеркивается и выделяется другим цветом.

179

Щелчок на гиперссылке приводит к тому, что браузер вызывает и размещает в своем окне документ, на который указывает гиперссылка. Таким образом,

благодаря гипертексту web – страница приобретает свойство некоторой ин-

терактивности.

Гипертекстовый документ представляет описание структуры и содер-

жания документа, отображаемого в окне Интернет-браузера. Это описание

создается

посредством команд, сформированных на

языке HTML

(HyperText Markup Languageязык гипертекстовой разметки).

Эти команды

могут интерпретироваться и выполняться программой браузером, таким, на-

пример, как Microsoft Internet Explorer. Интерпретируя команды HTML, брау-

зер создает визуальное изображение документа, собирая его из отдельных объектов и формируя web – страницу.

Гипертекстовые документы размещаются на Web – узлах в виде фай-

лов, содержащих отдельные web – страницы.. Web-узел – это специальная папка, в которой размещены файлы, содержащие текстовую информацию по какой-либо теме, а также информацию в виде рисунков, графиков, фотогра-

фий, анимационных изображений и звуковых эффектов. В этих файлах со-

держатся описания Web-страниц на одном из языков разметки гипертекста –

HTML или XML. Файлы имеют одно из следующих расширений: html, htm, xml. Существует три типа Web-узлов:

создаваемые на Web-сервере поставщика услуг Internet;

создаваемые в интрасети как Web-узлы группы;

виртуальный Web-узел, который может быть создан на жестком диске ав-

тономного компьютера, не подключенного к какой-либо сети.

Информация на Web-узле размещается в виде отдельных страниц. Ка-

ждая web-страница имеет вполне определенное содержательное и функцио-

нально законченное назначение. Поэтому такие страницы называют инфор-

мационными статьями. Все страницы (статьи) определенным образом связа-

ны друг с другом так, чтобы обеспечить пользователю удобный переход от

180