Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Истомин А.В. Анализ_данных.doc
Скачиваний:
3
Добавлен:
08.12.2018
Размер:
307.71 Кб
Скачать

3. Элементы прикладной статистики в анализе данных

I. Пусть для объектов S1,…,Sm известны значения количественных признаков Y, X1,…,Xn, равные , где i=1,…m соответственно. Одним из наиболее применяемых в анализе данных методов прикладной статистики является метод множественной линейной регрессии. Задача множественной линейной регрессии может быть сформулирована следующим образом (Дрейпер, Смит, 1973). Для линейной модели

y = a1x1 +…+an xn + b

требуется найти значения a1,…,an, b, на которых достигает минимума функционал

.

Эти n+1 неизвестных отыскиваются методом наименьших квадратов (см. Дрейпер, Смит, 1973; Дёмин, 2005).

II. Коэффициент ранговой корреляции Спирмена – мера зависимости двух признаков X и Y, основанная на ранжировании независимых результатов наблюдений (X1,Y1), …, (Xm,Ym), см. (Справочник…, 1990). Пусть, для простоты изложения, значения признаков X и Y в последовательности (X1,Y1),…,(Xm,Ym) не повторяются, как не повторяются и ранги, которые, в рассматриваемом случае представляют собой номера значений признаков X и Y в их упорядочениях по возрастанию, которые мы будем обозначать через rank(Xi) и rank(Yi), i=1, …,m, соответственно.

Тогда коэффициент ранговой корреляции Спирмена определяется формулой

,

где di – разность между рангами Xi и Yi, di=rank(Xi) – rank(Yi).

Если значения X или Y в этой последовательности повторяются, то формула усложняется за счёт учёта повторяющихся значений. Однако, если повторяющихся значений «не слишком много», то их влияние на значение rs пренебрежительно мало.

Коэффициент имеет следующее свойство: -1≤ rs ≤1. Мы получаем значения около +1, если большим значениям признака X отвечают большие значения признака Y, и значения около -1, если большие значения X отвечают меньшим значениям Y.

Оценка достоверности связи по уровню значимости (p-level) для rs является корректной без принятия допущений о виде функций распределения. В этом заключается главное преимущество rs по сравнению с «обычным» выборочным коэффициентом парной корреляции Пирсона r (Дёмин, 2005, с. 42-45). Дело в том, что для r уровень значимости (p-level) свидетельствует о достоверности (либо недостоверности) связи признаков X и Y только при выполнении достаточно жестких вероятностно-статистических предположений (например, при их совместном двухмерном нормальном распределении).

III. В практике анализа данных значительную роль играют гистограммы эмпирического распределения значений признака X(S) на множестве объектов S1,…,Sm. Гистограммы рассматривались в курсе теории вероятностей и математической статистики. Поэтому напомним только, что не существует математически обоснованного способа выбора на гистограмме числа интервалов k(m), где m – число объектов, однако, при выборе k(m) зачастую руководствуются логарифмической формулой Стерджеса (Вероятность …, 1999):

k(m)≈1+log2m.

Пусть k определяется по формуле Стерджеса. Тогда длина интервала на гистограмме равняется

(xmax-x min)/k(m),

где xmin, xmax – минимальное и максимальное значения признака X на множестве объектов S1,…,Sm.

Упомянутый в разделе 3 математический аппарат (кроме формулы Стерджеса) реализован в программном продукте Statistica for Windows (см. о нём в книге Боровикова В.П., Боровикова И.П. (1997)).