- •Введение
- •Раздел I. Введение в теорию вероятностей
- •Понятие о случайном событии
- •Классическое определение вероятности
- •Относительная частота. Статистическое определение вероятности.
- •Геометрическая вероятность
- •Свойства вероятностей Сложение вероятностей несовместимых событий
- •Умножение вероятностей
- •Сложение вероятностей совместимых событий
- •Формула полной вероятности
- •Основные формулы комбинаторики
- •Дискретные и непрерывные случайные величины. Понятие «случайные величины»
- •Закон распределения случайной величины
- •Теоретические распределения вероятностей
- •Биномиальное распределение
- •Распределение Пуассона
- •Числовые характеристики дискретных случайных величин
- •Нормальное распределение
- •Вопросы для самопроверки:
- •Раздел II. Основные понятия и термины биологической статистики Генеральная совокупность и выборка
- •Непреднамеренный отбор. Метод последовательных номеров. Случайный и механический методы отбора
- •Признаки и показатели
- •Правила ранжирования
- •Способы группировки первичных данных.
- •Схемы (модели) научного исследования
- •Однофакторная и многофакторная модель Контрольные и экспериментальные группы
- •Метод автоконтроля
- •Метод дублирования
- •Метод последовательного пополнения групп
- •Численность контрольных и экспериментальных групп
- •Научные гипотезы
- •Направленные гипотезы
- •Статистические критерии
- •Параметрические критерии
- •Непараметрические критерии
- •Уровни статистической значимости
- •1 Рода.
- •Вопросы для самопроверки
- •Раздел III. Статистические методы обработки экспериментальных данных
- •Проверка гипотезы о законе распределения
- •Χ2 Пирсона
- •Описательные статистики Концепция сжатия экспериментальных данных
- •Показатели центральной тенденции. Средние.
- •Медиана
- •Персентили
- •Показатели изменчивости
- •Стандартизованные данные
- •Показатели асимметрии и эксцесса
- •Эксцесс
- •Работа с качественными переменными Количественная оценка результатов эксперимента.
- •Вопросы для самопроверки:
- •Сравнение двух независимых групп т критерий Стьюдента
- •Критерии согласия для дисперсий
- •U критерий Маана-Уитни
- •Сравнение качественных признаков Критерий χ2
- •Сравнение долей
- •Точный тест Фишера
- •Сравнение более двух независимых групп Однофакторный дисперсионный анализ Фишера
- •Критерий Краскела-Уоллиса
- •Сравнение двух зависимых групп Парный т критерий Стьюдента
- •Парный критерий т – Вилкоксона
- •Критерий x2r Фридмана
- •Тест Мак-Немара
- •Корреляционный анализ
- •Вычисление и интерпретация параметров парной линейной корреляции
- •Условия применения и ограничения корреляционно анализа
- •Вычисление и интерпретация параметров парной линейной корреляции
- •Измерение связи количественных признаков
- •Измерение связи порядковых признаков
- •Измерение связи номинальных признаков
- •Относительный риск. Отношение шансов
- •Статистическая оценка надежности параметров парной корреляции
- •Частная корреляция
- •Факторный анализ
- •Вопросы для самопроверки:
- •Регрессионный анализ
- •Метод наименьших квадратов
- •Выбор формы функциональной зависимости
- •Применение парного линейного уравнения регрессии
- •Корреляционно-регрессионные модели (крм) и их применение в анализе и прогнозе.
- •Логистическая регрессия
- •Анализ динамических изменений Применение метода наименьших квадратов при исследовании тенденции развития
- •Анализ циклических изменений
- •Метод обычных средних
- •Метод корригирования средних
- •Метод отношения фактических данных
- •Ошибки, допускаемые при количественной характеристике сезонных колебаний
- •Кластерный анализ
- •Иерархическое дерево
- •Меры расстояния
- •Правила объединения или связи
- •Метод k средних
- •Выбор между параметрическими и непараметрическими тестами: легкая ситуация.
- •Выбор между параметрическими и непараметрическими тестами: сложные случаи.
- •Выбор между параметрическим и непараметрическим тестом: насколько это на самом деле влияет на результат?
- •Одно или двухсторонняя p-оценка?
- •Парный или непарный тест?
- •Тест Фишера или хи-квадрат?
- •Регрессия или корреляция?
- •Вопросы для самопроверки:
- •Раздел IV. Работа с программой easystatistics Общие сведения о программе EasyStatistics
- •Создание новой базы данных
- •Работа с файлами
- •Копирование и вставка данных
- •Работа с фильтрами
- •Работа с переменными и строками
- •Статистические методы Описательные статистики
- •Частотный анализ
- •Сравнение независимых выборок
- •Сравнение связанных выборок
- •Дисперсионный анализ
- •Корреляционный анализ
- •Множественная регрессия
- •Проверка типа распределения эмпирических данных
- •Вероятностный калькулятор
- •Задания для самостоятельной работы с программой
- •Список рекомендуемой литературы
- •Граничные (критические) значения 2-критерия, соответствующие разным вероятностям допустимой ошибки и разным степеням свободы
- •Критические значения коэффициентов корреляции для различных степеней свободы (n - 2) и разных вероятностей допустимых ошибок
Медиана
Медиана (Md) определяется как срединное значение в ранжированном ряду данных. Это значит, что по обе стороны от нее расположено ровно по половине данных. Применительно к кривой распределения медиана представляет такую точку на оси абсцисс, что ордината, проходящая через нее, делит площадь под кривой на две равные части.
Для определения медианы рекомендуется сначала упорядочить данные. Например, для определения значения медианы в массиве {8, 11, 12, 20, 12, 13, 9, 15, 19, 17, 19} необходимо этот массив упорядочить (произвести сортировку по возрастанию): {8, 9, 11, 12, 12, 13, 15, 17, 19, 19, 20}. Медиана будет равна 13 (обозначатся след. образом: Ме = 13). Если количество данных в выборке четное, то медиана равна средней арифметической между двумя центральными значениями. Например, если добавить в последнюю выборку значение 20, и упорядоченный массив примет следующий вид: {8, 9, 11, 12, 12, 13, 15, 17, 19, 19, 20, 20}, то медиана будет равна 14. В подобном случае медиана не может соответствовать ни одному из значений выборки. Медиана может принимать и дробные значения. Например, если мы в последнем примере 15 (одно из двух центральных значений) заменим на 14, то выборка примет вид {8, 9, 11, 12, 12, 13, 14, 17, 19, 19, 20, 20} и медиана будет равна 13,5.
В тех случаях, когда в выборке относительно немного данных, медиана ищется по указанному правилу. Если же данных много и они представлены в виде таблицы распределения численностей, то медиана определяется приближенно в том класс-интервале, для которого накоплено более половины значений анализируемого ряда данных.
Медиана обладает свойством, на котором основывается теоретическое и практическое применение. Это свойство состоит в том, что сумма абсолютных значений отклонений всех значений ряда от его медианы есть величина наименьшая.
Персентили
Персентили - это показатели типа средних по расположению в ряду. Если данные не сгруппированы, они определяются по месту нахождения после того, как все данные будут расположены по восходящей градации по величине изучаемого признака (пятидесятый персентиль известен под именем медианы, в предыдущем примере было показано как он вычисляется). Если данные сгруппированы в равномерно отстоящие друг от друга интервалы, то для получения соответствующих персентилей используется формула:
Pi=LPi+(c/f)*e,
где Lpi - нижняя граница интервала, в котором находится соответствующий персентиль;
с - число случаев, которое требуется прибавить к кумулятивному ряду случаев доперсентильных интервалов, чтобы получить порядковое число персентильного случая;
f - число случаев персентильного интервала;
е - величина персентильного интервала.
В практике обычно пользуются только некоторыми из персентилей: P3, P10, P25, P50, P75, P90, P97. Считается, что если индивидуально наблюдаемый признак находится в границах от Р25 до Р75, то величина его соответствует норме (следовательно, в норму входят 50% всех случаев), если он находится в границах от Р10 до Р25 и от Р75 до Р90, то оценка его соответственно выше или ниже средней (по 15%). Если величина рассматриваемого признака находится в границах от Р3 до Р10 и Р90 до Р97, оценка будет соответственно низкой или высокой (по 7%). В остальных случаях - очень низкая или очень высокая.
Если распределение изучаемого признака отличается от нормального, то при выработке нормативов следует предпочесть метод персентилей.
Имеются следующие данные о истолическом давлении крови у мужчин в возрасте 25-29лет. Необходимо найти персентили P3, P10, P25, P50, P75, P90, P97 и определить интервалы, в границах которых находятся отдельные нормативные группы .
Чтобы выполнить заданную задачу, первоначально находят так называемый начетный ряд (кумулятивные итоги - третий столбец таблицы). Он получается следующим образом, к числу случаев первого интервала прибавляют число случаев второго, к полученному итогу прибавляют число случаев третьего интервала и т.д.
RR в мм. рт. сб. |
Число случаев |
Куммулятивные суммы |
70-90 |
10 |
10 |
90-110 |
100 |
110 |
110-130 |
400 |
510 |
130-150 |
200 |
710 |
150-170 |
100 |
810 |
170-190 |
70 |
880 |
190-210 |
60 |
940 |
210-230 |
30 |
970 |
230-250 |
20 |
990 |
250-270 |
10 |
1000 |
Затем находим номера соответствующих персентилей по формуле:
/100*Pi, где - сумма всех случаев (в нашем примере 1000), Pi - соответствующий персентиль. По этой формуле номер третьего персентиля будет равен 30=(1000/100)*3, десятого персентиля -100, остальных персентилей соответственно 250, 500, 750, 900, 970.
По куммулятивным суммам определяют, в каком интервале находится каждый из требующихся персентилей. Например, персентиль №30 находится во втором интервале 90-100, №100 - в том же интервале, №250 - в интервале 110-130 и т.д. Затем при помощи формулы 1 находят величины искомых персентилей. В нашем случае: Р3=90+(20/100)*20=94 мм;
Р10=90+(90/100)*20=108 мм; Р25=110+(140/400)*20=117 мм;
Р50=110+(390/400)*20=129.5 мм; Р75=150+(40/100)*20=158 мм;
Р90=190+(20/60)*20=186.67 мм;
Р97=210+(30/30)*20=230 мм;
Следовательно, интервалы нормативов будут следующие:
Персентиль |
Р3 |
Р10 |
Р25 |
Р50 |
Р75 |
Р90 |
Р97 |
Давление |
94 |
108 |
117 |
130 |
158 |
187 |
230 |
|
Очень низкое. Сильно выраженная гипотония |
Низкое. Гипото-ния. |
Ниже среднего. Слабо выраженная гипотония. |
Средние. Нормальные случаи. |
Выше среднего. Слабо выраженная гипертония. |
Высокие. Гипертония. |
Очень высокие. Сильно выраженная гипертония. |
Следует учитывать, что вырабатывать нормативы следует на большом количестве случаев (100-200 и более). Только тогда имеет смысл вычислять персентили.
Мода
Мода (Mo) представляет собой наиболее часто встречающееся в распределении численностей значение. Если к данным таблицы распределения численностей подобрать теоретическую кривую распределения, то мода равна абсциссе точки, имеющей максимальную для этой кривой ординату.
Например, в следующей выборке: {2, 3, 5, 1, 4, 5, 6, 5, 2} модой будет являться значение 5 (обозначатся следующим образом: Мо = 5). Если массив содержит 2 моды, то распределение называется бимодальным. Таким примером может служить выборка {3, 3, 5, 1, 4, 5, 6, 5, 3}. Здесь Мо1 = 5, а Мо2 = 3.
Бимодальное или полимодальное распределение могут рассматриваться как признак неоднородности выборки. Например, школьный класс образован в результате механического слияния двух разных классов, и показатели мод интеллекта были изначально различны. После слияния в объединенной выборке профиль интеллекта будет иметь 2 моды.
Существует несколько приближенных способов оценки моды. Один из них состоит в том, что гистограмма тем или иным способом аппроксимируется непрерывной кривой, и затем находится абсцисса, соответствующая максимальной ординате. Она и будет приближенно равна моде.
В симметричных распределениях х, Mo, Md совпадают, в умеренно асимметричных распределениях Md находится между х и Мо на расстоянии от х, равном примерно одной третьей расстояния от х до Мо. На этом и построено приведенное ниже эмпирическое соотношение:
Mo = x-3*(x-Md).