Добавил:
ilirea@mail.ru Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Старый материал / Лабораторная работа №1.doc
Скачиваний:
58
Добавлен:
21.08.2018
Размер:
2.67 Mб
Скачать

Лабораторная работа №1 Описательная статистика. Построение графиков распределения в программах Excel и Statistica 6. Краткие сведения из теории

Биомедицинская информация - это сведения о свойствах биологических объектов и явлениях, являющихся предметами медицинских исследований, а также представления и суждения об этих свойствах и явлениях.

Данные полученные в ходе эксперимента могут быть качественными, количественными и порядковыми.Для корректного использования статистических методов важно представлять, какого типа данные будут обрабатываться.

Качественные данные(классификационные, неупорядоченные) - это признаки, которые нельзя выразить количественно: диагноз, место проживания, пол.

Количественные данные- признаки, выражаемые в числовой форме: возраст, вес, количество детей в семье. В свою очередь, они делятся на непрерывные и дискретные.

Непрерывные данные(continuous data) - количественные данные, которые могут принимать любое значение на непрерывной шкале. Другое название – признаки, измеряемые в интервальной шкале (температура, АДС, рост).

Дискретные данные(discrete data) - количественные данные, измеряемые в шкале отношений. Они принимают, как правило, конечное число значений, хотя иногда и очень большое: количество смертей в течение года в исследуемой когорте, количество пропущенных по болезни рабочих дней.

Порядковые данные- показатели, измеряемые в шкале порядка – промежуточные между качественными и количественными (стадии болезни, оценки – «плохо», «удовлетворительно», «хорошо»). Такие признаки могут быть осмысленно оцифрованы, поскольку порядок состояний имеет смысл. Часто к таким показателям следует относить балльные оценки, полученные при проведении тестов или экспертиз.

Для различных типов переменных применяются разные методы статистического анализа.

В данной лабораторной работе производится анализ количественных данных.

Весь массив исследуемых объектов образует генеральную совокупность. Генеральная совокупность обычно представляет собой достаточно большое число элементов, исследователь, в силу различных факторов не может осуществить эксперимент над всеми элементами генеральной совокупности, поэтому он останавливается на достаточном количестве элементов, по возможности характеризующим всю генеральную совокупность. Эти элементы называютсявыборкой. Предполагается, что выборка характеризует всю генеральную совокупность, такую выборку называютрепрезентативной (представительной). Стоит заметить, что в медицинских исследованиях часто бывает так, что выборки имеют очень не большой объем (n), порядка 10-20 элементов. Репрезентативность выборки очень важный элемент в планировании статистического исследования. При недостаточно качественном планировании исследования есть большой шанс получить превратные представления об исследуемом объекте.

Классический пример нерепрезентативной выборки, произошедший в 1936 году в США во время президентских выборов.

Журнал «Литэрари дайджест», который до этого весьма успешно прогнозировал результаты предыдущих выборов, на этот раз ошибся в своих прогнозах, хотя разослал несколько миллионов письменных вопросов подписчикам, а также респондентам, которых они выбрали из телефонных книг и из списков регистрации автомобилей. В 1/4 бюллетеней, которые вернулись заполненные обратно, голоса распределились следующим образом: 57 % отдали первенство кандидату от республиканцев по имени Альф Лэндон, а 41 % отдали предпочтение действующему президенту - демократу Франклину Рузвельту.

В действительности, на выборах победил Ф. Рузвельт, который набрал почти 60 % голосов. Ошибка «Литэрари дайджест» была в следующем. Они захотели увеличить репрезентативность выборки. А так как они знали, что большинство их подписчиков относят себя к республиканцам, то они решили расширить выборку за счёт респондентов, выбранных ими из телефонных книг и автомобильных регистрационных списков. Но они не учли существующих реалий и фактически отобрали ещё больше сторонников республиканцев, потому что во времена Великой депрессии иметь автомобили и телефоны мог позволить себе средний и высший класс. А это и были по большей части республиканцы, а не демократы.

Каждая генеральная совокупность характеризуется распределениемзначений исследуемой переменной или графическим представлениемчастоты встречаемости. Т.е. графическим представлением того с какой частотой встречается в результатах эксперимента то или иное значение. Выборка также характеризуется распределением признака (выборочное распределение). В большинстве случаев в медико-биологических исследованиях встречаются следующие виды распределения.

Нормальное (колоколообразное, гауссово)

Равномерное

Ассиметричное (если ассиметрия левосторонняя – логнормальное распределение)

Если функцию f(x) логнормального распределения преобразовать на ее логарифм log(f(x)), то в этом случае полученная функция будет иметь нормальное распределение и характеризоваться теми же параметрами.

Полимодальное

Полимодальное распределение может быть обусловлено действием нескольких скрытых факторов.

В зависимости от типа распределения выбираются методы статистического анализа.

Если распределение является нормальным или логнормальным, то применяют методы так называемой параметрической статистики. При использовании методов параметрической статистики выборка характеризуется двумя параметрами: средним значением(математическое ожидание) и стандартным отклонением (среднеквадратичное отклонение).

Среднее значение определяется формулой

Т.е отношение суммы значений всех переменных к их количеству (N – для совокупности, n – для выборки)

Если распределение значений близко к нормальному, то большинство значений распределено возле среднего значения. Величина, характеризующая расброс значений называется дисперсией.

Дисперсия показывает насколько в среднем значения по выборке (совокупности) отклоняются от среднего значения. Т.к. оперировать квадратом размерности величины не удобно (например если варьируемая величина имеет размерность см, то дисперсия измеряется всм2), то на практике чаще используют корень квадратный от дисперсии называемыйстандартным отклонением.

Для генеральной совокупности:

Для выборки формула имеет вид:

Стандартное отклонение — важный статистический показатель, но когда сообщаются статистические результаты, о нем часто забывают. Без этого показателя вы видите только часть информации относительно данных. Статистики любят рассказывать историю о человеке, одной ногой стоящем в ведре с ледяной водой, а второй — в ведре с кипятком. В среднем несчастный должен чувствовать себя отлично! Но вспомните о разнице двух температур для каждой его ноги. Например, средняя цена жилого дома ничего не скажет вам о разбросе цен, с которым вы столкнетесь, когда действительно будете подыскивать себе жилье. Средняя зарплата может не в полной мере отражать реальное положение дел в вашей компании, если разброс окладов очень большой.

Нормальное распределение полностью определяется средней µ и стандартным отклонением σ.

Правило трёх сигм (σ ) — практически все значения нормально распределённой случайной величины лежат в интервале от – 3 σ до +3 σ . Более строго — приблизительно с 0,9973 вероятностью значение нормально распределённой случайной величины лежит в указанном интервале.

В природе наиболее часто встречается нормальное распределение. Однако в медицинских исследованиях это не столь частое явление. Очень часто речь идет о том, что исследователь не может однозначно сказать, что распределение является нормальным, этому могут быть несколько причин, например, недостаточное количество данных полученных в ходе эксперимента. Для распределения, не являющегося нормальным параметрические методы неприменимы, их использование может привести к серьезным ошибкам в выводах об исследуемой совокупности. В таких случаях разумнее воспользоваться непараметрическими или ранговыми методами, которые можно применять для любых распределений.

Для характеристики распределения также используют следующие значения.

Медиана – значение, которое делит распределение пополам, в результате справа и слева от него находится равное число значений.

Мода– наиболее часто встречающееся значение.

Часто весь диапазон значений разбивают на четыре интервала – процентили.

Артефакты (выбросы) -такие записанные значения признака, которые резко отличаются от всех других значений признака в группе. Проверка артефактов должна проводиться всегда перед началом обработки полученных первичных данных. Если подтвердится, что резко выделяющееся значение действительно не может относиться к объектам данной группы, и попало в записи вследствие ошибок внимания, следует такой артефакт исключить из обработки. Проверка артефактов может производиться по критерию, равному нормированному отклонению выпада.

Проверка выбросов может производиться по критерию, равному нормированному отклонению выброса:

,

где:

Т – критерий выброса;

–выделяющееся значение признака (или очень большое или очень малое);

μ, – средняя и сигма, рассчитанные для группы, включающей артефакт;

Tst – стандартные значения критерия выбросов, определяемых по таблице 1.

Таблица 1 – Стандартные значения критерия выбросов (Tst)

n

Tst

n

Tst

n

Tst

n

Tst

2

2,0

16 – 20

2,4

47 – 66

2,8

125 – 174

3,2

3 – 4

2,1

21 – 28

2,5

67 – 84

2,9

175 – 349

3,3

5 – 9

2,2

29 – 34

2,6

85 – 104

3,0

350 – 599

3,4

10 – 15

2,3

35 – 46

2,7

105 – 124

3,1

600 – 1500

3,5

Если Т ≥ Tst, то анализируемое значение признака является выбросом. Альтернатива Т < Tst не позволяет исключить из анализа значение признака.

Артефакты могут являться следствием ошибки в ходе эксперимента, неправильной записи результата, сбоя измерительных приборов и т.д. Проверка на наличие выбросов желательна при предварительном анализе полученных данных, так как их наличие может существенно повлиять на конечные выводы об исследуемой совокупности. В принципе, если исследователь знает границы возможных результатов и какие-то полученные значения сильно выбиваются из этих границ, он может исключить их из анализа, не проводя дополнительной проверки вышеописанным способом.