- •Руденко л.И. Методические рекомендации и задания по работе в системе statistica
- •7.04030201 «Информатика»
- •I. Модульная система statistica
- •1. Ввод данных в системе statistica
- •Описательная статистика и таблицы
- •3. Графики системы statistica
- •Примеры выполнения статистического анализа
- •Предварительная обработка и t-тесты
- •2. Множественная регрессия
- •4. Кластерный анализ
- •5. Канонический анализ
- •6. Факторный анализ
- •7. Дискриминантный анализ
- •8. Временные ряды
- •7.040302001 «Информатика»
3. Графики системы statistica
Система STATISTICA предоставляет широкий спектр средств визуализации. Каждый модуль системы включает средства визуализации, соответствующие рассматриваемым в нем задачам анализа.
Типы графиков, предоставляемые системой:
Stats Graphs - Stats-графики, определенные в системе;
Quick Stats Graphs - Быстрые Stats-графики;
Custom Graphs - Пользовательские графики;
Blank Graphs - Пустой график;
User-defined Graphs- Определяемые пользователем графики.
Полный набор графиков и диаграмм вызывается из пункта Graphs главного меню системы. Выпадающее меню представляет список основных типов графиков. При выборе любого типа графика открывается диалоговое окно. Закладки позволяют выбрать уровень визуализации(Quick – быстрый, Advanced – расширенный, Categorized – категорированный); задать тип, стиль и вид документа (Appearance), выбрать настройки (Options).
Кнопка Variables позволяет выбрать одну или несколько переменных. В нижней части окна расположен ряд полезных кнопок, в том числе, крайняя слева – Graphs Gallery – Галерея графиков для быстрого переключения типа графика.
Перечислим некоторые часто используемые виды графиков и рассмотрим возможности визуального анализа на примере таблицы flat.sta.
3.1. Histograms – Гистограммы позволяют оценить распределение значений переменных. Выберите соответствующий пункт в списке меню Graphs и откройте закладку Advanced.
С помощью кнопки Variables выберите сначала одну переменную – ЧИСЛО_КОМНАТ. В окне Graph type оставьте Regular (обычная). При нажатии OK вы получите стандартную гистограмму (Standard). В окне Showing Type можно задать другой тип (Hanging Bars – «висящие бруски», Cumulative– гистограмма накопленных частот). В окне Fit type выполняется подбор распределения (по умолчанию – нормального). Число интервалов разбиения (категорий), равное 10, можно изменить в окошке Categories. Настройки в рамке Statistics позволят увидеть значения основных статистик и критериев нормальности.
Выберите теперь две переменные, например, ЭТАЖ и СТОИМОСТЬ и в окне Graph type укажите Multiple (множественная). Полученная гистограмма неудачна, поскольку шкалы измерений различны. В этом случае удобно указать Double-Y (двойные оси). Сравните полученные результаты.
Попробуйте выбрать настройки и виды графиков с помощью других закладок.
3.2. Scatterplots – Диаграммы рассеяния используются для визуального анализа зависимости между двумя переменными.
Выберите из списка графиков тип Scatterplots с закладкой Quick. Тип Regular(обычный) позволяет задать две переменные. Выберите переменные СТОИМОСТЬ и ЭТАЖ. Полученный после нажатия OK график представляет линию регрессии – линейной зависимости стоимости от этажа и «облако» точек наблюдаемых пар признаков. Диаграммы рассеяния позволяют увидеть структуру совокупности, наличие классов и выбросов.
Тип графика Multiple позволяет в одной координатной плоскости построить несколько диаграмм рассеяния. Выберите в левом окне переменных СТОИМОСТЬ, а в правом – ЧИСЛО_КОМНАТ, ПЛОЩАДЬ, ЭТАЖ и получите множественную диаграмму рассеяния.
Закладка Advanced дает расширенные возможности в выборе типа графика и подборе линии связи, включая нелинейные формы.
3.3. Means with Error Plots – Диаграммы средних с ошибками – отображают разброс значений относительно центра распределения в виде Whiskers-диаграмм или High-Low Close («верхние-нижние границы») для одной (Regular) или нескольких переменных.
3.4. Surface Plot – Поверхности – это поверхности в трехмерном пространстве, отображающие взаимосвязь трех переменных. Выбор аппроксимирующей поверхности – в окне Fit.
3.5. Последующие типы графиков разбиты на группы двумерных (2D Graphs) и трехмерных (3D Graphs) диаграмм, матрицы диаграмм (Matrix Plots), диаграммы (Icon Plots) и другие, представляющие необычайно широкий круг возможностей для визуализации результатов обработки данных. Рассмотрим некоторые из них.
Матрицы диаграмм (Matrix Plots), как уже отмечалось в п.2.2, отображают для каждой пары переменных разброс точек их наблюдаемых значений относительно теоретической линии связи (линии регрессии). Эти диаграммы позволяют выбирать любое число переменных из заданных в таблице данных.
Откройте таблицу flat.sta и выберите из меню Graphs пункт Matrix Plots. Выберите переменные (кнопка Variables) ЧИСЛО_КОМНАТ, ПЛОЩАДЬ, ЭТАЖ, СТОИМОСТЬ. В окне Graph type укажите Square Scatter Matrix (квадратные матрицы рассеяния). В окне Fit задайте Linear (Линейная модель связи). После нажатия OK на экране появится окно матрицы диаграмм. Симметричная матрица размера 4х4 по диагонали отображает гистограммы для выбранных переменных, остальные диаграммы отображают в двумерной плоскости разброс точек (двумерных наборов признаков) относительно прямой линии связи. Например, в первой строке отображается связь переменной ЧИСЛО_КОМНАТ с переменными ПЛОЩАДЬ, ЭТАЖ, СТОИМОСТЬ.
В случае тесной положительной связи (ЧИСЛО_КОМНАТ – ПЛОЩАДЬ) линия связи направлена по главной диагонали, а точки, соответствующие парам значений признаков, достаточно близко сосредоточены вдоль прямой. При отсутствии связи (ЧИСЛО_КОМНАТ – ЭТАЖ) линия связи близка к горизонтальному положению (к линии средних), а точки разбросаны в плоскости.
Диаграммы Icon Plots предлагают для визуализации данных графические объекты (иконки) различных типов (Chernoff Faces – «лица Чернова», Pies – круговые, Stars – звездные, Sun Rays – лучевые, Columns – столбиковые, Lines – Линейные, Profiles – профильные). Размеры их составляющих пропорциональны значениям признаков-переменных. Для удобства интерпретации рекомендуется выводить сами значения переменных (указать в закладке Options1 /Display options/ Case labels: Variables).