3. Элементы прикладной статистики в анализе данных

I. Пусть для объектов S₁,…,S_m известны значения количественных признаков Y, X₁,…,X_n, равные , где i=1,…m соответственно. Одним из наиболее применяемых в анализе данных методов прикладной статистики является метод множественной линейной регрессии. Задача множественной линейной регрессии может быть сформулирована следующим образом (Дрейпер, Смит, 1973). Для линейной модели

y = a₁x₁ +…+a_n x_n + b

требуется найти значения a₁,…,a_n, b, на которых достигает минимума функционал

Эти n+1 неизвестных отыскиваются методом наименьших квадратов (см. Дрейпер, Смит, 1973; Дёмин, 2005).

II. Коэффициент ранговой корреляции Спирмена – мера зависимости двух признаков X и Y, основанная на ранжировании независимых результатов наблюдений (X₁,Y₁), …, (X_m,Y_m), см. (Справочник…, 1990). Пусть, для простоты изложения, значения признаков X и Y в последовательности (X₁,Y₁),…,(X_m,Y_m) не повторяются, как не повторяются и ранги, которые, в рассматриваемом случае представляют собой номера значений признаков X и Y в их упорядочениях по возрастанию, которые мы будем обозначать через rank(X_i) и rank(Y_i), i=1, …,m, соответственно.

Тогда коэффициент ранговой корреляции Спирмена определяется формулой

где d_i– разность между рангами X_i и Y_i, d_i=rank(X_i) – rank(Y_i).

Если значения X или Y в этой последовательности повторяются, то формула усложняется за счёт учёта повторяющихся значений. Однако, если повторяющихся значений «не слишком много», то их влияние на значение r_s пренебрежительно мало.

Коэффициент имеет следующее свойство: -1≤ r_s ≤1. Мы получаем значения около +1, если большим значениям признака X отвечают большие значения признака Y, и значения около -1, если большие значения X отвечают меньшим значениям Y.

Оценка достоверности связи по уровню значимости (p-level) для r_s является корректной без принятия допущений о виде функций распределения. В этом заключается главное преимущество r_s по сравнению с «обычным» выборочным коэффициентом парной корреляции Пирсона r (Дёмин, 2005, с. 42-45). Дело в том, что для r уровень значимости (p-level) свидетельствует о достоверности (либо недостоверности) связи признаков X и Y только при выполнении достаточно жестких вероятностно-статистических предположений (например, при их совместном двухмерном нормальном распределении).

III. В практике анализа данных значительную роль играют гистограммы эмпирического распределения значений признака X(S) на множестве объектов S₁,…,S_m. Гистограммы рассматривались в курсе теории вероятностей и математической статистики. Поэтому напомним только, что не существует математически обоснованного способа выбора на гистограмме числа интервалов k(m), где m – число объектов, однако, при выборе k(m) зачастую руководствуются логарифмической формулой Стерджеса (Вероятность …, 1999):

k(m)≈1+log₂m.

Пусть k определяется по формуле Стерджеса. Тогда длина интервала на гистограмме равняется

(x_max-x_min)/k(m),

где x_min, x_max– минимальное и максимальное значения признака X на множестве объектов S₁,…,S_m.

Упомянутый в разделе 3 математический аппарат (кроме формулы Стерджеса) реализован в программном продукте Statistica for Windows (см. о нём в книге Боровикова В.П., Боровикова И.П. (1997)).

<<< < Предыдущая 12 / 122 3 4 5 6 7 8 9 10 11 12 > Следующая >>>

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

#
23.09.201975 Кб1иогп 1-8.docx
#
18.11.201979.19 Кб3ИОГП 2 семинар.docx
#
28.03.201649.89 Кб12ионизирующее излучение.docx
#
06.06.201568.87 Кб17ИП 31. Трансактный анализ Э.Берна.docx
#
14.12.2018293.89 Кб1Истина и ТЭ.doc
#
08.12.2018307.71 Кб3Истомин А.В. Анализ_данных.doc
#
15.08.2019475.14 Кб2историки стационар.doc
#
01.08.2019688.44 Кб19История зарубежной журналистики.rtf
#
23.09.2019180.74 Кб6История культуры 1-5.doc
#
08.05.2019533.5 Кб17История мировых религий.doc
#
17.11.201930.75 Кб3к теме 5 (формат 2).doc