Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теория вероятностей. Ответы..docx
Скачиваний:
270
Добавлен:
03.05.2015
Размер:
775.31 Кб
Скачать

39. Правило трех сигм.

Если случайная величина распределена нормально, то абсолютная величина ее отклонения от мат. ожидания не превосходит утроенного среднего квадратического отклонения.

Запишем вероятность того, что отклонение нормально распределенной случайной величины от математического ожидания меньше заданной величины D:

Если принять D = 3s, то получаем с использованием таблиц значений функции Лапласа:

Т.е. вероятность того, что случайная величина отклонится от своего математического ожидание на величину, большую чем утроенное среднее квадратичное отклонение, практически равна нулю.

40. Генеральная и выборочная совокупность. Повторная и бесповторная выборки. Статическое распределение выборки.

Пусть требуется изучить совокупность однородных объектов относительно некоторого качественного или количественного признака, характеризующего эти объекты.

Выборочной совокупностью или просто выборкой

называют совокупность случайно отобранных объектов.

Генеральной совокупностью называют совокупность

объектов, из которых производится выборка.

Объемом совокупности (выборочной или генеральной)

называют число объектов этой совокупности.

Пример: если из 1000 деталей отобрано для обследования 100 деталей, то объем генеральной совокупности N = 1000, а

объем выборки n =100.

Повторной называют выборку, при которой

отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой

отобранный объект в генеральную совокупность не возвращается.

На практике обычно пользуются бесповторным случайным отбором. Пусть из генеральной совокупности извлечена выборка, причем х1 наблюдалось n1 раз, х2 – n2 раз, хk– nk раз и ∑ni=n - объем выборки. Наблюдаемые значения х1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом. Число наблюдений варианты называют частотой, а ее отношение к объему выборки - относительной частотой ni/n=wi

Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант хi и соответствующих им частот ni или относительных частот wi.

Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:

x1

x2

...

xm

n1

n2

...

nm

(сумма всех частот равна объему выборки ∑ni=n)  или в виде таблицы распределения относительных частот:

x1

x2

...

xm

w1

w2

...

wm

(сумма всех относительных частот равна единице ∑wi=1).

41. Понятие о системе случайных величин.

Если возможное значение случайной величины определяется одним числом, то она называется одномерной. Например, число очков, выпадающее при бросании кости (дискретная одномерная случайная величина), или, расстояние от орудия до места падения снаряда (непрерыв­ная одномерная случайная величина).

Кроме одномерных случайных величин изучают вели­чины, возможные значения которых определяются двумя, тремя, ..., n числами. Такие величины называются соот­ветственно двумерными, трехмерными, . . ., n-мерными.

Двумерную случайную величину обозначают (XY). Каждую из величин X и Y называют состав­ляющей; обе величины X и Yрассматри­ваемые одновременно, образуют систему двух случайных величин. Аналогично n-мерную величину можно рассмат­ривать как систему п случайных величин.

42. Функция распределения двумерной случайной величины.

Функцией распределения вероятностей системы двух случайных величин называется функция двух аргументов , равная вероятности совместного выполнения двух неравенств  и , т. е.

Геометрически функцию распределения системы двух случайных величин можно интерпретировать как вероятность попадания случайной точки  в левый нижний бесконечный квадрант плоскости (рис. 14) с вершиной в точке .

Свойства функции распределения системы двух случайных величин:

1) Если один из аргументов стремится к + бесконечности, то функция распределения системы стремится к функции распределения одной случайной величины, соответствующей другому аргументу.

2) Если оба аргумента стремятся к бесконечности, то функция распределения системы стремится к единице.

3) При стремлении одного или обоих аргументов к - бесконечности функция распределения стремится к нулю.

4) Функция распределения является неубывающей функцией по каждому аргументу.

5) Вероятность попадания случайной точки (X, Y) в произвольный прямоугольник со сторонами, параллельными координатным осям, вычисляется по формуле.

43. Двумерная плотность вероятности.

Как известно, случайная величина имеет плотность вероятности, если она непрерывна. Говоря о случайных величинах, двумерная случайная величина называется непрерывной, если ее функция распределения является непрерывной функцией. И существует вторая смешанная производная F ''xy (x,y), которая и является плотностью вероятности двумерной случайной величины.

   Т.е. плотность вероятности это вторая смешанная производная от функции распределения двумерной случайной величины:

   В общем виде плотность вероятности двумерной случайной величины выражается следующей формулой

 

 

 

где

   r - коэффициент корреляции случайных величин X и Y    σx - среднее квадратическое отклонение случайной величины X    σy - среднее квадратическое отклонение случайной величины Y    mx- математическое ожидание случайной величины X    my - математическое ожидание случайной величины Y

   Если случайные величины подчинены нормальному закону распределения и не коррелированы (r = 0 ), то формула плотности вероятности примет вид:

44. Числовые характеристики системы двух случайных величин.

Для описания системы двух случайных величин кроме математических ожиданий и дисперсий составляющих используют и другие характеристики; к их числу относятся корреляционный момент и коэффициент корреляции.

45. Корреляционный момент. Коэффициент корреляции.

Корреляционным моментом  случайных величин  и  называют математическое ожидание произведения отклонений этих случайных величин: .  Из определения корреляционного момента следует, что он имеет размерность, равную произведению размерностей случайных величин  и . Корреляционный момент служит для характеристики связи между случайными величинами  и . Теорема. Корреляционный момент двух независимых случайных величин  и  равен нулю. Теорема. Абсолютная величина корреляционного момента двух случайных величин и не превосходит среднего геометрического их дисперсий:  

Коэффициентом корреляции  случайных величин  и  называют отношение корреляционного момента к произведению их средних квадратических отклонений: .  Так как размерность  равна произведению размерностей случайных величин  и  имеет размерность случайной величины имеет размерность случайной величины , то  – безразмерная величина. Теорема. Абсолютная величина коэффициента корреляции не превышает единицы: .

46. Линейная регрессия.

Рассмотрим двумерную случайную величину (X,Y), где X и Y - зависимые случайные величины. Представим одну из величин как функцию другой. Ограничимся приближенным представлением (точное приближение, вообще говоря, невозможно) величины Y в виде линейной функции величины X:

,

где и - параметры, подлежащие определению. Это можно сделать различными способами: наиболее употребительный из них - метод наименьших квадратов.

Функцию называют «наилучшим приближением» Y в смысле метода наименьших квадратов, если математическое ожидание М [Yg(X)]2 принимает наименьшее возможное значение; функцию g(x) называют среднеквадратической регрессией Y на X.

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

,

где тх=M(X), тy=M(Y), , , r = μху /(σxσy) - коэффициент корреляции величин X и Y.

Доказательство. Введем в рассмотрение функцию двух независимых аргументов и :

.

Учитывая, что М (X—тх)(Y—my )= 0, M[(X—mx)*(Y-my)]= μху=r σxσy,

и выполнив выкладки, получим

.

Исследуем функцию на экстремум, для чего приравняем нулю частные производные:

Отсюда

, .

Легко убедиться, что при этих значениях и рассматриваемая функция принимает наименьшее значение.

Итак, линейная средняя квадратическая регрессия Y и X имеет вид

,

или

.

Коэффициент называют коэффициентом регрессии Y на X, а прямую

(**)

называют прямой среднеквадратической регрессии Y на X.

Подставив найденные значения и в соотношение (*), получим минимальное значение функции F (,), равное (1 - r2). Величину (1 - r2) называют остаточной дисперсией случайной величины Y относительно случайной величины X; она характеризует величину ошибки, которую допускают при замене Y линейной функцией g(X)=+X. При r = ±1 остаточная дисперсия равна нулю; другими словами, при этих крайних значениях коэффициента корреляции не возникает ошибки при представлении Y в виде линейной функции от X.

Итак, если коэффициент корреляции r = ± 1, то Y и X связаны линейной функциональной зависимостью.

Аналогично можно получить прямую среднеквадратической регрессии X на Y:

(***)

( - коэффициент регрессии X на Y) и остаточную дисперсию(1 - r2)величины X относительно Y.

Если r = ±1, то обе прямые регрессии, как видно из (**) и (***), совпадают.

Из уравнений (**) и (***) следует, что обе прямые регрессии проходят через точку (тх, mу), которую называют центром совместного распределения величин X и Y.

47. Линейная корреляция.

Теорема. Если двумерная случайная величина (X, Y) распределена нормально, то X и Y связаны линейной корреляционной зависимостью.

Доказательство. Двумерная плотность вероятности

, (*)

где , . (**)

Плотность вероятности составляющей X

. (***)

Найдем функцию регрессии М (Y|х), для чего сначала найдем условный закон распределения величины Y при Х = х [см. § 14, формула (**)]:

.

Подставив (*) и (**) в правую часть этой формулы выполнив выкладки, имеем

.

Заменив и и v по формулам (**), окончательно получим

.

Полученное условное распределение нормально с математическим ожиданием (функцией регрессии Y на X)

и дисперсией .

Аналогично можно получить функцию регрессии X на Y:

.

Так как обе функции регрессии линейны, то корреляция между величинами X и Y линейная, что и требовалось доказать.

Принимая во внимание вероятностный смысл параметров двумерного нормального распределения (см. § 19), заключаем, что уравнения прямых регрессии

,

совпадают с уравнениями прямых среднеквадратической регрессии.

48. Эмпирическая функция распределения.

 Эмпирической функцией выборки (функцией распределения выборки) называется функция

    Fn(x)=

nx

n

 

, которую можно записать в следующем виде:

 

  Данная функция непрерывная, кусочно-постоянна и изменяется в каждой точке хi, гдехi — варианта рассматриваемого статистического распределения. 

49. Полигон и гистограмма.

Полигон (для дискретной случайной величины) - ломаная, соединяющая точки (хi, ni — полигон частот или точки (хi, wi) — полигон относительных частот.

  Полигон частот:

 

 Гистограмма — ступенчатая фигура, состоящая из прямоугольников, основаниями которых являются отрезки длиной xi-xi-1, а их высоты равны:

ni

n(xi-xi-1)

  

  Если объем выборки из генеральной совокупности случайной непрерывной величины велик, то прибегают к предварительной группировке данных: размах выборки разбивают на k частичных интервалов Ji. Количество интервалов подсчитывается по формуле: 

  k=log2n+1

  Подсчитывается, сколько значений из n1, n2,...,nm попало в каждый из к интервалов. Вариантами для выборки считают середины этих интервалов. 

  Эмпирической плотностью распределения выборки:

50. Статистические оценки параметров распределения.

Статистической оценкой неизвестного параметра теоретического распределения называют функцию от наблюдаемых случайных величин.

Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Эффективной называют статистическую оценку, которая (при заданном объеме выборки n) имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при n→∞ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n→∞ стремится к нулю, то такая оценка оказывается и состоятельной.

51. Несмещенные, эффективные и состоятельные оценки.

Несмещенной называют статистическую оценку Θ*, математическое ожидание которой равно оцениваемому параметру Θ при любом объеме выборки, т. е.

М (Θ*) = Θ.

Смещенной называют оценку, математическое ожидание которой не равно оцениваемому параметру.

Эффективной называют статистическую оценку, которая (при заданном объеме выборки n) имеет наименьшую возможную дисперсию.

При рассмотрении выборок большого объема (n велико!) к статистическим оценкам предъявляется требование состоятельности.

Состоятельной называют статистическую оценку, которая при n→∞ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n→∞ стремится к нулю, то такая оценка оказывается и состоятельной.

52. Генеральная средняя. Выборочная средняя. Групповая и общая средние.

Пусть изучается дискретная генеральная совокупность относительно количественного признака X.

Генеральной средней называют среднее арифметическое значений признака генеральной совокупности.

Если все значения x1, х2, …, xN признака генеральной совокупности объема N различны, то

.

Если же значения признака x1, х2, …, xk имеют соответственно частоты N1, N2, ..., Nk , причем N1 +N2+…+Nk=N ,то

,

т. е. генеральная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Пусть для изучения генеральной совокупности относительно количественного признака X извлечена выборка объема п.

Выборочной средней называют среднее арифметическое значение признака выборочной совокупности.

Если все значения x1, х2, …, xn признака выборки объема n различны, то

Если же значения признака x1, х2, …, xk имеют соответственно частоты n1, n2, …, nk, причем п1 + п2+… + nk = n, то

,

или

,

т.е. выборочная средняя есть средняя взвешенная значений признака с весами, равными соответствующим частотам.

Групповой средней называют среднее арифметическое значений признака, принадлежащих группе.

Теперь целесообразно ввести специальный термин для средней всей совокупности.

Общей средней называют среднее арифметическое значений признака, принадлежащих всей совокупности.

Зная групповые средние и объемы групп, можно найти общую среднюю: общая средняя равна средней арифметической групповых средних, взвешенной по объемам групп,

Пример. Найти общую среднюю совокупности, состоящей из следующих двух групп:

Группа……………………....

первая

вторая

Значение признака…………

1

6

1

5

Частота……………………...

10

15

20

30

Объем……………………….

10+15 = 25

20 + 30 = 50

Решение. Найдем групповые средние:

=(10*1+15*6)/25=4;

= (20*1+30*5)/50 = 3,4.

Найдем общую среднюю по групповым средним:

=(25* 4 + 50*3,4)/(25 + 50) = 3,6.

53. Генеральная дисперсия. Выборочная дисперсия.

Генеральной дисперсией Dг называют среднее арифметическое квадратов отклонений значений признака генеральной совокупности от их среднего значения .

Если все значения x1, х2, …, xN признака генеральной совокупности объема N различны, то

.

Если же значения признака x1, х2, …, xk имеют соответственно частоты N1, N2,…, Nk, причем N1 +N2+…+Nk=N, то

,

т.е. генеральная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам.

Пример. Генеральная совокупность задана таблицей распределения

xi 2 4 5 6

Ni 8 9 10 3

Найти генеральную дисперсию.

Решение. Найдем генеральную среднюю:

.

Найдем генеральную дисперсию;

.

Генеральным средним квадратическим отклонением (стандартом) называют квадратный корень из генеральной дисперсии:

.

Выборочной дисперсией называют среднее арифметическое квадратов отклонения наблюдаемых значений признака от их среднего значения .

Если все значения x1, х2, …, xn признака выборки объема п различны, то

.

Если же значения признака x1, х2, …, xk имеют соответственно частоты п1, n2,…, nk, причем n1 + n2+…+nk = n, то

,

т.е. выборочная дисперсия есть средняя взвешенная квадратов отклонений с весами, равными соответствующим частотам.

Пример. Выборочная совокупность задана таблицей распределения

xi 1 2 3 4

ni 20 15 10 5

Найти выборочную дисперсию.

Решение. Найдем выборочную среднюю (см. § 4):

.

Найдем выборочную дисперсию:

.

Выборочным средним квадратическим отклонением (стандартом) называют квадратный корень из выборочной дисперсии:

.

54. Формула для вычисления дисперсии.

Теорема. Дисперсия равна среднему квадратов значений признака минус квадрат общей средней:

.

Доказательство. Справедливость теоремы вытекает из преобразований:

.

Итак,

,

где , .

Пример. Найти дисперсию по данному распределению

xi 1 2 3 4

ni 20 15 10 5

Решение. Найдем общую среднюю:

.

Найдем среднюю квадратов значений признака:

.

Искомая дисперсия

=5-22=1.

55. Точность оценки, доверительная вероятность (надежность). Доверительный интервал.

Точечной называют оценку, которая определяется одним числом. Все оценки, рассмотренные выше,- точечные. При выборке малого объема точечная оценка может значительно отличаться от оцениваемого параметра, т. е. приводить к грубым ошибкам. По этой причине при небольшом объеме выборки следует пользоваться интервальными оценками.

Интервальной называют оценку, которая определяется двумя числами - концами интервала. Интервальные оценки позволяют установить точность и надежность оценок (смысл этих понятий выясняется ниже).

Пусть найденная по данным выборки статистическая характеристика Θ* служит оценкой неизвестного параметра Θ. Будем считать Θ постоянным числом (Θ может быть и случайной величиной). Ясно, что Θ* тем точнее определяет параметр Θ, чем меньше абсолютная величина разности |Θ - Θ*|. Другими словами, если δ>0 и |Θ - Θ*|<δ, то чем меньше δ, тем оценка точнее. Таким образом, положительное число δ характеризует точность оценки.

Однако статистические методы не позволяют категорически утверждать, что оценка Θ * удовлетворяет неравенству |Θ - Θ*|<δ; можно лишь говорить о вероятности γ, с которой это неравенство осуществляется.

Надежностью (доверительной вероятностью) оценки Θ по Θ* называют вероятность γ, с которой осуществляется неравенство |Θ - Θ*|<δ. Обычно надежность оценки задается наперед, причем в качестве γ берут число, близкое к единице. Наиболее часто задают надежность, равную 0,95; 0,99 и 0,999.

Пусть вероятность того, что |Θ - Θ*|<δ, равна γ:

Р[|Θ - Θ*|<δ]= γ.

Заменив неравенство |Θ - Θ*|<δ равносильным ему двойным неравенством <Θ - Θ*< δ, или Θ*- δ <Θ< Θ* + δ, имеем

Р[Θ* - δ <Θ< Θ* + δ] = γ.

Это соотношение следует понимать так: вероятность того, что интервал(Θ*-δ, Θ*+δ) заключает в себе (покрывает) неизвестный параметр Θ, равна γ.

Доверительным называют интервал (Θ*-δ, Θ*+δ), который покрывает неизвестный параметр с заданной надежностью γ.

56. Доверительные интервалы для оценки математического ожидания нормального распределения при известном σ.

Пусть количественный признак X генеральной совокупности распределен нормально, причем среднее квадратическое отклонение σ этого распределения известно. Требуется оценить неизвестное математическое ожидание а по выборочной средней . Поставим своей задачей найти доверительные интервалы, покрывающие параметр а с надежностью γ.

Будем рассматривать выборочную среднюю как случайную величину ( изменяется от выборки к выборке) и выборочные значения признака х1, x2, ...,хn - как одинаково распределенные независимые случайные величины Х1, Х2, ...,Хn (эти числа также изменяются от выборки к выборке). Другими словами, математическое ожидание каждой из этих величин равно а и среднее квадратическое отклонение - σ.

Примем без доказательства, что если случайная величина X распределена нормально, то выборочная средняя , найденная по независимым наблюдениям, также распределена нормально. Параметры распределения таковы :

M()=a, .

Потребуем, чтобы выполнялось соотношение

Р(|Х - а| < δ) = γ,

где γ - заданная надежность.

Пользуясь формулой

Р(|Х-а| < δ) = 2Ф(δ/σ),

заменив X на и σ на , получим

Р(|Х-а|) ) = 2Ф(δ) = 2Ф (t),

где t = δ.

Найдя из последнего равенства , можем написать

Р (|—а | < ) = 2Ф(t).

Приняв во внимание, что вероятность P задана и равна γ, окончательно имеем (чтобы получить рабочую формулу, выборочную среднюю вновь обозначим через )

Смысл полученного соотношения таков: с надежностью γ можно утверждать, что доверительный интервал (, ) покрывает неизвестный параметр а; точность оценки .

Итак, поставленная выше задача полностью решена. Укажем еще, что число t определяется из равенства 2Ф(t) = γ. или Ф(t)= γ /2; по таблице функции Лапласа (см. приложение 2) находят аргумент t, которому соответствует значение функции Лапласа, равное γ /2.

57. Условные варианты.

Предположим, что варианты выборки расположены в возрастающем порядке, т. е. в виде вариационного ряда.

Равноотстоящими называют варианты, которые образуют арифметическую прогрессию с разностью h.

Условными называют варианты, определяемые равенством

ui=(xi-C)/h,

где С—ложный нуль (новое начало отсчета); h — шаг, т. е. разность между любыми двумя соседними первоначальными вариантами (новая единица масштаба).

Упрощенные методы расчета сводных характеристик выборки основаны на замене первоначальных вариант условными.

Покажем, что если вариационный ряд состоит из равноотстоящих вариант с шагом h, то условные варианты есть целые числа. Действительно, выберем в качестве ложного нуля произвольную варианту, например хт, Тогда

.

Так как i и m-целые числа, то их разность i-m = иi-также целое число.

Замечание 1. В качестве ложного нуля можно принять любую варианту. Максимальная простота вычислений достигается, если выбрать в качестве ложного нуля варианту, которая расположена примерно в середине вариационного ряда (часто такая варианта имеет наибольшую частоту).

Замечание 2. Варианте, которая принята в качестве ложного нуля, соответствует условная варианта, равная нулю.

Пример. Найти условные варианты статистического распределения: варианты . . . 23,6 28,6 33,6 38,6 43,6 частоты ... 5 20 50 15 10

Решение. Выберем в качестве ложного нуля варианту 33,6 (эта варианта расположена в середине вариационного ряда). Найдем шаг:

h = 28,6 —23,6 = 5.

Найдем условную варианту:

u1=(xi-C)/h= (23,6 —33,6)/5 = -2.

Аналогично получим: u2= - 1, u3 = 0, u4 =1, u5 = 2. Мы видим, что условные варианты — небольшие целые числа. Разумеется, оперировать с ними проще, чем с первоначальными вариантами.

58. Обычные, начальные и центральные моменты.

Обычным эмпирическим моментом порядка k называют среднее значение k-x степеней разностей xi - С:

где xi- наблюдаемая варианта, ni- частота варианты, - объем выборки, С - произвольное постоянное число (ложный нуль).

Начальным эмпирическим моментом порядка k называют обычный момент порядка k при С = 0

.

В частности,

,

т, е. начальный эмпирический момент первого порядка равен выборочной средней.

Центральным эмпирическим моментом порядка k называют обычный момент порядка k при С =

.

В частности,

,

т. е. центральный эмпирический момент второго порядка равен выборочной дисперсии.

Легко выразить центральные моменты через обычные:

,

59. Условные эмпирические моменты.

Условным эмпирическим моментом порядка k называют начальный момент порядка k, вычисленный для условных вариант:

.

В частности,

.

Отсюда

. (*)

Таким образом, для того чтобы найти выборочную среднюю, достаточно вычислить условный момент первого порядка, умножить его на h и к результату прибавить ложный нуль С.

Выразим обычные моменты через условные:

.

Отсюда

.

Таким образом, для того чтобы найти обычный момент порядка k, достаточно условный момент того же порядка умножить на hk.

Найдя же обычные моменты, легко найти центральные моменты по равенствам (**) и (***) предыдущего параграфа. В итоге получим удобные для вычислений формулы, выражающие центральные моменты через условные:

, (**)

(***)

В частности, в силу (**) и соотношения (*) получим формулу для вычисления выборочной дисперсии по условным моментам первого и второго порядков

. (****)

60. Метод произведений для вычисления выборочных средней и дисперсии.

Метод произведений дает удобный способ вычисления условных моментов различных порядков вариационного ряда с равноотстоящими вариантами. Зная же условные моменты, нетрудно найти интересующие нас начальные и центральные эмпирические моменты. В частности, методом произведений удобно вычислять выборочную среднюю и выборочную дисперсию. Целесообразно пользоваться расчетной таблицей, которая составляется так:

  1. в первый столбец таблицы записывают выборочные (первоначальные) варианты, располагая их в возрастающем порядке;

  2. во второй столбец записывают частоты вариант; складывают все частоты и их сумму (объем выборки n) помещают в нижнюю клетку столбца;

  3. в третий столбец записывают условные варианты ui = (xi - C)/h, причем в качестве ложного нуля С выбирают варианту, которая расположена примерно в середине вариационного ряда, и полагают h равным разности между любыми двумя соседними вариантами; практически же третий столбец заполняется так: в клетке строки, содержащей выбранный ложный нуль, пишут 0; в клетках над нулем пишут последовательно —1, —2, —3 и т.д., а под нулем—1, 2, 3 и т.д.;

  1. умножают частоты на условные варианты и записывают их произведения niui - в четвертый столбец; сложив все полученные числа, их сумму помещают в нижнюю клетку столбца;

  2. умножают частоты на квадраты условных вариант и записывают их произведения niui2 в пятый столбец; сложив все полученные числа, их сумму помещают в нижнюю клетку столбца;

  3. умножают частоты на квадраты условных вариант,увеличенных каждая на единицу, и записывают произведения ni (ui+1)2 в шестой контрольный столбец; сложив все полученные числа, их сумму помещают в нижнюю клетку столбца.

Замечание 1. Целесообразно отдельно складывать отрицательные числа четвертого столбца (их сумму A1 записывают в клетку строки, содержащей ложный нуль) и отдельно положительные

числа (их сумму A2 записывают в предпоследнюю клетку столбца); тогда .

Замечание 2. При вычислении произведений niui2 пятого столбца целесообразно числа niui четвертого столбца умножать на ui.

амечание 3. Шестой столбец служит для контроля вычислений: если сумма окажется равной сумме (как и должно быть в соответствии с тождеством )то вычисления проведены правильно.

После того как расчетная таблица заполнена и проверена правильность вычислений, вычисляют условные моменты:

, .

Наконец, вычисляют выборочные среднюю и дисперсию по формулам (*) и (****) § 3:

, .

Пример. Найти методом произведений выборочные среднюю и дисперсию следующего статистического распределения:

варианты 10,2 10,4 10,6 10,8 11,0 11,2 11,4 11,6 11,8 12,0

частоты 2 3 8 13 25 20 12 10 6 1

Решение. Составим расчетную таблицу, для чего:

  1. запишем варианты в первый столбец;

  2. запишем частоты во второй столбец; сумму частот (100) поместим в нижнюю клетку столбца;

  3. в качестве ложного нуля выберем варианту 11,0 (эта варианта расположена примерно в середине вариационного ряда); в клетке третьего столбца, которая принадлежит строке, содержащей выбранный ложный нуль, пишем 0; над нулем записываем последовательно—1, —2, —3, —4, а под нулем — 1 , 2, 3, 4, 5;

  4. произведения частот на условные варианты записываем в четвертый столбец; отдельно находим сумму ( — 46) отрицательных и отдельно сумму (103) положительных чисел; сложив эти числа, их сумму (57) помещаем в нижнюю клетку столбца;

  5. произведения частот на квадраты условных вариант запишем в пятый столбец; сумму чисел столбца (383) помещаем в нижнюю клетку столбца;

  6. произведения частот на квадраты условных вариант, увеличенных на единицу, запишем в шестой контрольный столбец; сумму (597) чисел столбца помещаем в нижнюю клетку столбца.

В итоге получим расчетную табл. 7.

Контроль: =383+2*57+100= 597.

.

Вычисления произведены правильно.

Таблица 7

1

2

3

4

5

6

xi

ni

ui

niui

niui2

ni (ui+1)2

10,2

2

-4

-8

32

18

10,4

3

-3

-9

27

12

10,6

8

-2

-16

32

8

10,8

13

-1

-13

13

0

11,0

25

0

A1=-46

25

11,2

20

1

20

20

80

11,4

12

2

24

48

108

11,6

10

3

30

90

160

11,8

6

4

24

96

150

12,0

1

5

5

25

36

A2=103

n=100

=57

=383

=597

Вычислим условные моменты первого и второго порядков:

= 57/ 100 = 0,57;

= 383/ 100 = 3,83.

Найдем шаг: h= 10,4— 10,2 = 0,2.

Вычислим искомые выборочные среднюю и дисперсию:

= 0,57 *0,2 + 11,0 = 11,1 ;

= [3,83 — (0,57)2]*0,22 = 0,14.

61. Функциональная зависимость и регрессия.

Две переменные   и  y  связаны функциональной зависимостью, если для каждого значения одной из них можно получить по определёному правилу одно или несколько значений другой.   

Теорема. Линейная средняя квадратическая регрессия Y на X имеет вид

,

где тх=M(X), тy=M(Y), , , r = μху /(σxσy) - коэффициент корреляции величин X и Y.

Доказательство. Введем в рассмотрение функцию двух независимых аргументов и :

.

Учитывая, что М (X—тх)(Y—my )= 0, M[(X—mx)*(Y-my)]= μху=r σxσy,

и выполнив выкладки, получим

.

Исследуем функцию на экстремум, для чего приравняем нулю частные производные:

Отсюда

, .

Легко убедиться, что при этих значениях и рассматриваемая функция принимает наименьшее значение.

Итак, линейная средняя квадратическая регрессия Y и X имеет вид

,

или

.

Коэффициент называют коэффициентом регрессии Y на X, а прямую

(**)

называют прямой среднеквадратической регрессии Y на X.

62. Статистическая проверка статистических гипотез. Понятие о критериях согласия.

 Под статистической гипотезой понимают всякое высказывание о генеральной совокупности (случайной величине), проверяемое по выборке (по результатам наблюдений).

Не располагая сведениями о всей генеральной совокупности, высказанную гипотезу сопоставляют по определенным правилам, с выборочными сведениями и делают вывод о том, можно принять гипотезу или нет.

  Процедура сопоставления высказанной гипотезы с выборочными данными называется проверкой гипотезы.

Рассмотрим этапы проверки гипотезы и используемые при этом понятия.

 Этап 1. Располагая выборочными данными  и руководствуясь конкретными условиями рассматриваемой задачи, формулируют гипотезу Но, которую называют основной илинулевой, и гипотезу Н1 конкурирующую с гипотезой Н0Термин «конкурирующая» означает, что являются противоположными следующие два события:

по выборке будет принято решение о справедливости для генеральной совокупности гипотезы Н0;

по выборке будет принято решение о справедливости для  генеральной совокупности гипотезы Н1.

Гипотезу H1 называют также альтернативной. Например, если нулевая гипотеза такова: математическое ожидание равно 5,- то альтернативная гипотеза может быть следующей: математическое ожидание меньше 5, что записывается следующим образом:

 Этап 2. Задаются вероятностью  , которую называют уровнем значимости. Поясним ее смысл.

Решение о том, можно ли считать высказывание Н0  справедливым для генеральной совокупности, принимается по выборочным данным, т. е. по ограниченному ряду наблюдений, следовательно, это решение может быть ошибочным. При этом может иметь место ошибка двух родов:

отвергают гипотезу Но, или, иначе, принимают альтернативную гипотезу H1, тогда как на самом деле гипотеза Н0 верна; это ошибка первого рода;

принимают гипотезу Н, тогда как на самом деле высказывание Но неверно, т. е. верной является гипотеза Н1  это ошибка второго рода.

Так вот уровень значимости —это вероятность ошибки первого рода, т. е.

вероятность того, что будет принята гипотеза Н, если на самом деле в генеральной совокупности верна гипотеза Но. Вероятность  задается заранее малым числом, используют некоторые стандартные значения: 0,05; 0,01; 0,005; 0,001. Например, α=0,05 означает следующее: если гипотезу Но проверять по каждой из 100 выборок одинакового объема, то в среднем в 5 случаях из 100 мы совершим ошибку первого рода.

Вероятность ошибки второго рода обозначают β, т. е.

—вероятность того, что будет принята гипотеза Но, если на самом деле верна гипотеза Н1.

 Этап 3. Находят величину φ такую, что:

ее значения зависят от выборочных данных, т. е. для которой справедливо равенство

   ее значения позволяют судить о «расхождении выборки с гипотезой Н0»;  и которая, будучи величиной случайной в силу случайности выборки, подчиняется при выполнении гипотезы Но некоторому известному закону распределения.

Величину φ  называют критерием.

 Этап 4. Далее рассуждают так. Так как значения критерия позволяют судить о «расхождении выборки с гипотезой Но», то  из области допустимых значений критерия следует выделить подобласть  таких значений, которые свидетельствовали бы о существенном расхождении выборки с гипотезой Но и, следовательно, о невозможности принять гипотезу Но.

Подобласть  называют критической областью.

Допустим, что критическая область выделена. Тогда руководствуются следующим правилом: если вычисленное по выборке значение критерия  попадает в критическую область, то гипотеза Но отвергается и принимается гипотеза Н1. При этом следует понимать, что такое решение может оказаться ошибочным:

на самом деле гипотеза? yо может быть справедливой. Таким образом, ориентируясь на критическую область, можно совершить ошибку первого рода, вероятность которой задана заранее и равна . Отсюда вытекает следующее требование к критической области :

вероятность того, что критерий  примет значение из критической области  , должна быть равна заданному числу , т. е.

Но критическая область данным равенством  определяется неоднозначно. Действительно, представив себе график функции плотности f (х) критерия  , нетрудно понять, что на оси абсцисс существует бесчисленное множество областей-интервалов таких, что площади построенных на них криволинейных   трапеций равны . Поэтому кроме требования

выдвигается следующее требование: критическая область  должна быть расположена так, чтобы при заданной вероятности  ошибки первого рода вероятность  ошибки второго рода была минимальной.

2. Критерий согласия Пирсона.

Существуют различные методы проверки гипотез о неизвестных параметрах известных законов распределения. Но чаще на практике закон распределения неизвестен и необходимо выбрать модель закона и проверить возможность принять выдвинутую модель.

 Проверка гипотезы о предполагаемом законе осуществляется с помощью специально подобранной СВ, которая называется критерием согласия.

 Критерий согласия- это критерий проверки гипотезы о предполагаемом законе неизвестного распределения.

Существует несколько критериев. Ограничимся описанием применения критерия Пирсона (2). Этот критерий можно применять для проверки любого закона распределения. В этом состоит его преимущество.

Эмпирические и теоретические частоты обычно различаются. Это различие может быть случайным (незначимым) или неслучайным ( значимым). Если различия неслучайны, то выдвинутая нулевая гипотеза неверна. Критерий Пирсона позволяет ответить на вопрос о значимости или незначимости различий