Добавил:
ilirea@mail.ru Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Скачиваний:
34
Добавлен:
21.08.2018
Размер:
569.53 Кб
Скачать

Лекция 3

Понятие доверительного интервала.

Корреляционный и регрессионный анализ.

Доверительный интервал

Большинство статистических показателей используется для приблизительной оценки какой-либо характеристики изучаемой совокупности, например, средний доход семьи, средний возраст заболевших и т.д. Такие характеристики совокупности называются параметрами. Люди хотят оценить значение параметра, сделав выборку из совокупности и используя статистические показатели этой выборки, которые и позволят им сделать качественное предположение. Так что же такое "качественное предположение"? "Самым качественным было бы полное отсутствие предположения — т.е. если бы вы приступили к работе и сразу же точно определили параметр. Но определить точное значение параметра, не проводя перепись всей совокупности, невозможно — в большинстве случаев это была бы изматывающая и дорогостоящая работа. Часто говорят: "Быть статистиком — значит, никогда не говорить, что ты уверен. Главное — просто подобраться поближе к истине". Конечно, статистики хотят быть уверенными в том, что полученные результаты как можно точнее отражают действительность, ведь на исследования были затрачены средства и время.

Лучший способ оценить параметр (т.е. характеристику всей совокупности) — это определить статистический показатель плюс/минус предел погрешности, воспользовавшись данными большой выборки. Статистический показатель плюс/минус предел погрешности — это и есть доверительный интервал.

Доверительный интервал — интервал, который покрывает неизвестный параметр с заданной надёжностью.

Смысл доверительного интервала достаточно ясен: мы не знаем точно, чему равна некоторая величина, но можем указать интервал, в котором она находится (с заданной вероятностью).

Слово доверительный используется потому, что вы в определенной степени доверяете процессу, в ходе которого получили этот интервал.

Эффективный диуретик

Рассмотрим задачу, в которой исследуется препарат диуретик, вся совокупность состоит из 200 человек. Одной группе дается препарат, второй – плацебо.

Средний диурез при приеме плацебо составил µп = 1200мл, при приеме диуретика — µд = 1400 мл. Таким образом, препарат увеличивает суточный диурез на µд – µп = 1400 – 1200 = 200 мл.

Однако обычно, исследователь вынужден довольствоваться выборками, по которым он и оценивает величину эффекта. Данные, полученные по двум выборкам, в каждую из которых входило по 10 человек: плацебо (контрольная группа) средний диурез составил 1180 мл, а в группе, получавшей диуретик, — 1400 мл. Среднее увеличение диуреза в данном опыте: 220 мл. Как и всякая выборочная оценка, подверженная влиянию случая, эта величина отличается от истинного увеличения суточного диуреза, равного 200 мл. И если бы мы, основываясь на выборочных данных, сказали, что препарат увеличивает суточный диурез в среднем на 220 мл, то упустили бы из виду неопределенность, присущую выборочной оценке. Правильнее будет рассчитать доверительный интервал — он покажет не одно число, скорее всего не совпадающее с истинным, а диапазон чисел, куда истинное попадает почти наверняка (например, с вероятностью 95%). Теперь можно вычислить 95% доверительный интервал для среднего изменения диуреза:

Таким образом, 95% доверительный интервал среднего изменения диуреза составляет 31—409 мл. Иными словами, выборочные данные позволяют с 95% надежностью утверждать, что препарат увеличивает диурез более чем на 31 мл, но менее чем на 409 мл. Как и следовало ожидать, истинное значение 200 мл находится в этом интервале.

Быть на 95% уверенным — это значит, что если вы сделаете много-много выборок и каждый раз, исходя из результатов, определите доверительный интервал, то в 95% случаев полученные доверительные интервалы попадут точно в цель, т.е. будут действительно отражать истинный параметр.

Ширина доверительного интервала — это расстояние от нижней границы интервала до верхней границы интервала.

При высказывании предположения с использованием доверительного интервала главная цель состоит в том, чтобы доверительный интервал был узким. Но как добиться того, чтобы доверительный интервал был достаточно узким? Обдумать этот вопрос придется до того, как собирать данные, ведь после окончания сбора данных ширина доверительного интервала уже установлена.

На ширину доверительного интервала влияют три фактора.

  • Доверительный уровень

  • Размер выборки.

  • Степень изменчивости в генеральной совокупности.

Наиболее часто рассчитываемые доверительные интервалы:

  • среднего значения

  • для разности средних значений

  • доли

  • разности долей

  • значений

  • линии регрессии

Анализ зависимостей

Виды связей между признаками.

Часто исследователя интересует возможность предсказать поведение (значение) одной переменной в зависимости от значения другой. Если, например, вести исследование по отношению к двум признакам (переменным), то можно заметить, что изменчивость одного признака находится в некотором соответствии с изменчивостью другого. Зная характер зависимости, исследователь в процессе практического применения данных эксперимента опирается уже не на свой личный опыт или опыт своих коллег, а также интуитивное знание, но на знание подтвержденное методами статистического анализа, сведенное в таблицы и представленными графически.

В популярных научных статьях выводы выглядят следующим образом:

  • Сидячие виды деятельности (например, просмотр телепередач) связаны с увеличением веса и возрастанием риска диабета у женщин.

  • Зависимость веса человека от его роста.

  • Выражение гнева может иметь обратную взаимосвязь с риском сердечного приступа или удара. (Те, кто не сдерживают свой гнев, рискуют меньше.)

  • У мужчин потребление спиртного в умеренных дозах снижает риск сердечных заболеваний.

  • Незамедлительное лечение позволяет приостановить развитие глаукомы.

  • Или предположение, что аспирин может предотвратить образование полипов у больных раком толстой кишки.

Выявление и измерение связи между признаками, характеризующими изучаемые явления или процессы является важнейшей частью исследования.

Различают функциональную и корреляционную связи.

Функциональная связь

При наличии функциональной связи изменение величины одного признака неизбежно вызывает совершенно определенные изменения величины другого признака. Примером такой связи может служить зависимость площади круга от его радиуса. Площадь треугольника точно определяется его высотой и основанием, длина окружности – радиусом, скорость падения есть функция времени падения и ускорения силы тяжести, скорость протекания определенной химической реакции находится в зависимости от температуры. Можно сказать, что функциональная связь может быть выражена посредством математической формулы.

Функциональная связь между явлениями присуща неживой природе. Или если условия эксперимента близки к идеальным (когда предполагается, что никаких посторонних влияний нет), что достаточно сложно осуществимо.

Корреляционная связь

В биологических науках чаще приходится иметь дело со связью между явлениями, когда одной и той же величине одного признака соответствует ряд варьирующих значений другого признака, что обусловлено чрезвычайным многообразием взаимодействия различных явлений живой природы. Т.е. при изменении значения одного признака, зависимый признак может принимать в разных ситуациях (экспериментах) неодинаковые значения. Каждому определенному значению первого признака соответствует не одно значение второго признака, а целое распределение этих значений. Такого рода связь носит название корреляционной (correlation—соответствие, соотносительность) или корреляция. В то время как функциональная связь имеет место в каждом отдельном наблюдении, корреляционная связь проявляется только при многочисленном сопоставлении признаков. Исследователю следует помнить, что обнаружение корреляции между сопоставляемыми явлениями не говорит еще о существовании причинной связи между ними.

Пример не функциональной зависимости:

Другими словами, имея дело с подобными явлениями, исследователь не может однозначно определить вид (математическую формулу) связи между ними. Часто он видит имеющуюся взаимосвязь, но предсказать точное поведение объекта при изменении параметров другого объекта (даже при явно замеченной взаимосвязи) исследователь не может. Причиной может являться как сложные механизмы самого взаимодействия, так и влияющие факторы, о которых исследователь не знает или не может исключить из эксперимента или повседневного практического опыта.

Например, частота трелей сверчка зависит от температуры: когда на улице холодно, сверчки поют не так часто. Еще один пример корреляции — набор кадров в полицию. Часто оказывается, что количество преступлений (на душу населения) связано с количеством полицейских на данной территории.

В связи с этим исследователь вынужден использовать приблизительную характеристику зависимости, каковая не становиться менее значимой в силу своей не точности, с точки зрения математической формулы.

Этапы статистического анализа зависимостей:

  • Сбор данных

  • Внесение данных в таблицы (попарно)

  • Первичный анализ предполагаемой зависимости

  • Исключение из выборки артефактов (выбросов)

  • Регрессионный анализ

  • Корреляционный анализ

  • Проверка соответствия модели экспериментальным данным

Первичный анализ

Данные представленные в таблицах, необходимо подвергнуть предварительному анализу. Анализ необходим для определения наиболее подходящих методов анализа зависимостей, что подразумевает знание основных статистических параметров, вида распределения, типа исследуемых данных. После данные эксперимента наносятся на график и рассчитывается значение коэффициента корреляции. Уже по первичному анализу можно судить о наличии какой-либо взаимосвязи.

Выбросы

Однако в силу возможных ошибок эксперимента в таблицу результатов могут попасть данные явно нетипичные для конкретного эксперимента – выбросы.

По определению, выбросы являются нетипичными, резко выделяющимися наблюдениями. Так как при построении прямой регрессии используется сумма квадратов расстояний наблюдаемых точек до прямой, то выбросы могут существенно повлиять на наклон прямой и, следовательно, на значение коэффициента корреляции. Поэтому единичный выброс (значение которого возводится в квадрат) способен существенно изменить наклон прямой и, следовательно, значение корреляции. Обычно считается, что выбросы представляют собой случайную ошибку, которую следует контролировать. К сожалению, не существует общепринятого метода автоматического удаления выбросов. Чтобы не быть введенными в заблуждение полученными значениями, необходимо проверить на диаграмме рассеяния каждый важный случай значимой корреляции. Очевидно, выбросы могут не только искусственно увеличить значение коэффициента корреляции, но также реально уменьшить существующую корреляцию.

Пример графика с присутствующими выбросами

Выбросы исключаются из выборки попарно.

Соседние файлы в папке лаб № 3