Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Основы биомедицинской статистики

.pdf
Скачиваний:
68
Добавлен:
18.05.2015
Размер:
1.77 Mб
Скачать

ОСНОВЫ БИОМЕДИЦИНСКОЙ СТАТИСТИКИ

ПРИМЕНЕНИЕ MS EXCEL ДЛЯ СТАТИСТИЧЕСКИХ РАСЧЕТОВ

Содержание

1Сводные выборочные характеристики………………………………1

1.1Сводные характеристики выборки при малом числе испытаний (n<50)……… 1

2Установка ПАКЕТА АНАЛИЗА……………………………………….7

3Сводные характеристики выборки для партии материала. Доверительные интервалы ……………………………………………10

4Оценка анормальности результатов испытаний……………………12

5Проверка гипотез о соответствии фактического распределения результатов испытаний теоретическому……………………………...13

5.1Оценка соответствия результатов измерения нормальному закону по

величине асимметрии и эксцеcса……………………………………………………..14

6Сравнение двух выборок…………………………………………………17

6.1Сравнение двух средних независимых выборок (критерий Стьюдента)………..17

7Регрессионный анализ……………………………………………………22

7.1.Построение графиков……………………………………………………………………22

7.2.Линейная функция………………………………………………………………………23

7.3.Логарифмическая, степенная и экспоненциальная функции………………………….23

7.4.Примечание………………………………………………………………………………………24

8Демонстрационные примеры……………………………………………….25

9Литература…………………………………………………………………………………32

2

1 Сводные выборочные характеристики

При исследовании свойств совокупность результатов отдельных измерений заменяют сводными характеристиками. К основным числовым характеристикам случайных величин относятся: среднее значение, дисперсия, среднее квадратическое отклонение, коэффициент вариации, размах варьирования.

1.1Сводные характеристики выборки при малом числе испытаний (n<50)

Среднее арифметическое – это среднее значение из суммы всех исследованных величин, де-

ленных на число испытаний.

Xi

 

 

 

 

 

X

(1)

n

 

 

 

 

Хi – текущее значение измеряемой величины; n – количество значений в выборке.

В программе Excel среднее значение определяется функцией СРЗНАЧ (рис. 1).

Рис. 1. Функция СРЗНАЧ

Для проведения расчетов выделяем курсором ячейку, в которой хотим отобразить среднее значение и нажимаем на клавиатуре клавишу =. Далее в поле Имя указываем функцию СРЗНАЧ (рис. 2).

Рис. 2 Поиск функций в программе Excel 2007

Если в поле ИМЯ название функции не появилось, то левой кнопкой мыши щелкаем на треугольник рядом с полем, после этого появится окно со списком функций. Если данной функции в списке нет, то левой кнопкой мыши нажимаем на пункт списка ДРУГИЕ ФУНКЦИИ, появится диалоговое окно МАСТЕР ФУНКЦИЙ, в котором с помощью вертикальной прокрутки выбираем нужную функцию, выделяем ее курсором и нажимаем на ОК (рис. 3).

Автор: доцент Андаспаева А.А.

3

Рис. 3. Мастер функций

Для поиска функции в программе Excel 2007 на ленте может быть открыта любая вкладка, тогда для проведения расчетов выделяем курсором ячейку, в которой хотим отобразить среднее значение и нажимаем на клавиатуре клавишу =. Далее в поле Имя указываем функцию СРЗНАЧ. Окно для расчета функции аналогично приведенному выше (Рис.2).

Также можно выбрать вкладку Формулы и нажать левой кнопкой мыши на кнопку в меню «ВСТАВИТЬ ФУНКЦИЮ» (рис. 4), появится окно МАСТЕР ФУНКЦИЙ, вид которого аналогичен Рис.3. Также в меню можно сразу выбрать категорию функций (недавно использовались, финансовые, логические, текстовые, дата и время, математические, другие функции), в которой будем искать нужную функцию.

Ссылки и массивы

Другие функции

Математические

Рис. 4. Выбор функции в Excel 2007

СРЗНАЧ(число1; число2; ...)

Число1, число2, .. — это от 1 до 30 аргументов, для которых вычисляется среднее.

Аргументы должны быть либо числами, либо именами, массивами или ссылками, содержащими числа.

В поле Число 1, Число 2 вводится диапазон ячеек, для которых нужно вычислить среднее значение. Даже если в поле Число 1 ввести данные из одного столбца, а в поле Число 2 – из другого столбца, будет вычислено одно среднее значение для всех введенных данных.

Автор: доцент Андаспаева А.А.

4

Ввод диапазона ячеек осуществляется после наведения курсора на квадратик в конце строки в поле Число 1 или Число 2 и нажатия на нем левой кнопки мыши (рис. 5).

Рис. 5 Функция СРЗНАЧ

В результате диалоговое окно примет вид (рис. 6)

Рис. 6. Диалоговое окно функции СРЗНАЧ

Далее курсор перемещается на рабочий лист и устанавливается в первую ячейку диапазона, для которого вычисляется среднее значение. Передвигая курсор вниз при нажатой левой кнопке мыши, выделяем диапазон для расчета. В строке отобразятся номера ячеек. После ввода номеров ячеек левой кнопкой мыши нажимаем на квадрат в конце строки. На экране появится изображение диалогового окна для расчета среднего значения (рис. 1). Далее нажимаем на ОК.

Функция СРЗНАЧА вычисляет среднее арифметическое значение, заданных в списке аргументов. Помимо чисел в расчете могут участвовать текст и логические значения, такие как ИСТИНА

и ЛОЖЬ.

Среднее квадратическое отклонение различается на смещенное S и несмещенное S1. Среднее квадратическое отклонение S, полученное при выборке n<30, носит название смещенного и его среднее значение занижено по сравнению со средним квадратическим отклонением для всей партии материала.

При числе испытаний n<30

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

Xi X

2

 

 

(2)

 

 

 

 

 

n

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

При числе испытаний 30≤n<50

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Xi

 

 

 

 

 

2

 

 

 

 

 

 

 

 

S1

 

X

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(3)

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S= Mk S1

 

 

 

 

 

 

 

 

 

 

 

(4)

где Мк –коэффициент, зависящий от числа испытаний

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Значения Мк приведены в табл. 1

для К=n-1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 1

К

 

2

3

4

 

 

9

 

19

30

50

 

60

Мк

 

1,128

1,085

1,064

 

1,028

 

 

 

1,013

1,008

1,005

 

1,004

При n>60 значение Мк~1.

Для вычислений при n<30 применяется функция СТАНДОТКЛОН (рис.7). Поиск данной функции осуществляется методом, указанном для расчета среднего значения.

Автор: доцент Андаспаева А.А.

5

Рис. 7. Функция СТАНДОТКЛОН

Функция СТАНДОТКЛОН оценивает среднее квадратическое отклонение (стандартное отклонение) по выборке. Стандартное отклонение — это мера того, насколько широко разбросаны точки данных относительно их среднего.

СТАНДОТКЛОН(число1; число2; ...)

Число1, число2,... — от 1 до 30 числовых аргументов, соответствующих выборке из генеральной совокупности. Вместо аргументов, разделенных точкой с запятой, можно также использовать массив или ссылку на массив.

СТАНДОТКЛОН предполагает, что аргументы являются только выборкой из генеральной совокупности. Если данные представляют всю генеральную совокупность, то стандартное отклонение следует вычислять с помощью функции СТАНДОТКЛОНП.

Стандартное отклонение вычисляется с использованием «несмещенного» или «n-1» метода. СТАНДОТКЛОН использует формулу (2).

Логические значения, такие как ИСТИНА или ЛОЖЬ, а также текст игнорируются. Если текст и логические значения игнорироваться не должны, следует использовать функцию рабочего листа СТАНДОТКЛОНА, а для генеральной совокупности - СТАНДОТКЛОНПА.

Коэффициент вариации - является относительной характеристикой рассеяния случайной величины

С

S

 

100%

(5)

 

 

 

Х

 

 

 

 

Для проведения расчетов выделяем курсором ячейку, в которой хотим отобразить значение коэффициента вариации, и нажимаем на клавиатуре клавишу =. В строке для ввода формул набираем нужную формулу, причем величины среднего значения и среднего квадратического значения вводим в виде ссылки на ячейку, где они представлены в числовой форме. Для этого подводим курсор к нужной ячейке и нажимаем левую кнопку мыши. После ввода формулы нажимаем на клавиатуре клави-

шу ENTER.

Математические знаки, используемые для ввода формул приведены в табл. 2.

Таблица 2

Математическое действие

Обозначение для ввода в программе EXCEL

Сложение

+

Вычитание

-

Умножение

*

Деление

/

Левая скобка

(

Правая скобка

)

Возведение в степень

^

Корень

КОРЕНЬ (Число 1; Число 2 …)

 

Вычисляется как встроенная функция

Равно

=

Размах варьирования - разница между наибольшей и наименьшей величинами в выборке

Автор: доцент Андаспаева А.А.

6

 

R Xmax Xmin

(6)

где Xmax

- максимальное значение в выборке;

 

Xmin

- минимальное значение в выборке.

 

Максимальное значение выборки определяется функцией МАКС (рис. 8).

Рис. 8. Функция МАКС

Функция МАКС возвращает наибольшее значение из набора значений.

МАКС(число1;число2; ...)

Число1, число2,..— от 1 до 30 чисел, среди которых требуется найти наибольшее.

Можно задавать аргументы, которые являются числами, пустыми ячейками, логическими значениями или текстовыми представлениями чисел. Аргументы, которые являются значениями ошибки или текстами, не преобразуемыми в числа, вызывают значения ошибок.

Если аргумент является массивом или ссылкой, то в нем учитываются только числа. Пустые ячейки, логические значения или текст в массиве или ссылке игнорируются. Если логические значения или текст не должны игнорироваться, следует использовать функцию МАКСА.

Если аргументы не содержат чисел, то функция МАКС возвращает 0 (ноль). Минимальное значение выборки определяется функцией МИН (рис. 9).

Рис. 9 Функция МИН

Функция МИН возвращает наименьшее значение в списке аргументов.

МИН(число1;число2; ...)

Число1, число2,...— от 1 до 30 чисел, среди которых требуется найти наименьшее.

Можно задавать аргументы, которые являются числами, пустыми ячейками, логическими значениями или текстовыми представлениями чисел. Аргументы, которые являются значениями ошибки или текстом, не преобразуемым в числа, вызывают значения ошибок.

Если аргумент является массивом или ссылкой, то учитываются только числа. Пустые ячейки, логические значения или текст в массиве или ссылке игнорируются. Если логические значения или текст игнорироваться не должны, следует пользоваться функцией МИНА.

Автор: доцент Андаспаева А.А.

7

Если аргументы не содержат чисел, то функция МИН возвращает 0.

Расчет размаха варьирования осуществляется путем ввода формулы в строку формул, а минимальное и максимальное значения указываются в виде ссылки на ячейки.

Абсолютная ошибка выборки

 

t

S

 

(7)

 

 

 

n

 

 

 

где t – коэффициент Стьюдента, выбираемый по таблице в зависимости от числа испытаний.

Относительная ошибка выборки

 

 

100%

(8)

X

Расчет ошибок выборки осуществляется путем ввода формул в строку формул.

2Установка ПАКЕТА АНАЛИЗА

ВExcel 2007 для установки ПАКЕТА АНАЛИЗА нужно нажать на кнопку OFFICE в левом верхнем углу листа (рис. 10). Далее нажимаем на кнопку ПАРАМЕТРЫ EXCEL. В появившемся окне ПАРАМЕТРЫ EXCEL нажимаем левой кнопкой мыши на пункт НАДСТРОЙКИ и в правой части раскрывшегося списка выбираем пункт ПАКЕТ АНАЛИЗА. Далее нажимаем на ОК.

Чтобы Пакет анализа был установлен, нажимаем на кнопку ПЕРЕЙТИ, расположенную внизу раскрытого окна. Появится окно, показанное на рис. 12. Ставим галочку напротив ПАКЕТА АНАЛИЗА. Во вкладке ДАННЫЕ появится кнопка АНАЛИЗ ДАННЫХ (рис. 11).

Кнопка «Office»

а)

Параметры Excel

Рис. 10. Установка ПАКЕТА АНАЛИЗА в Excel 2007

Автор: доцент Андаспаева А.А.

8

б)

Рис. 10. Установка ПАКЕТА АНАЛИЗА в Excel 2007

Рис. 11. Вкладка ДАННЫЕ

Далее откроется окно, которое показано на рис. 12.

Из предложенных пунктов выбирает пункт «ОПИСАТЕЛЬНАЯ СТАТИСТИКА» и щелкаем на нем левой кнопкой мыши.

Рис. 12. Окно «АНАЛИЗ ДАННЫХ»

Далее откроется окно, показанное на рис. 13.

Автор: доцент Андаспаева А.А.

9

Рис. 13. Окно ОПИСАТЕЛЬНАЯ СТАТИСТИКА

Входной интевал(диапазон). Ссылка на диапазон, содержащий анализируемые данные. Ссылка должна состоять не менее чем из двух смежных диапазонов данных, данные в которых расположены по строкам или столбцам.

Группирование. Установите переключатель в положение «По столбцам» или «По строкам» в зависимости от расположения данных во входном диапазоне.

Метки в первой строке/Метки в первом столбце. Если первая строка исходного диапазона содержит названия столбцов, установите переключатель в положение Метки в первой строке. Если названия строк находятся в первом столбце входного диапазона, установите переключатель в положение Метки в первом столбце. Если входной диапазон не содержит меток, то необходимые заголовки в выходном диапазоне будут созданы автоматически.

Уровень надежности. Установите флажок, если в выходную таблицу необходимо включить строку для уровня надежности. В поле введите требуемое значение. Например, значение 95% вычисляет уровень надежности среднего с уровнем значимости 0,05.

К-ый наибольший. Установите флажок, если в выходную таблицу необходимо включить строку для k-го наибольшего значения для каждого диапазона данных. В соответствующем окне введите число k. Если k равно 1, эта строка будет содержать максимум из набора данных.

К-ый наименьший. Установите флажок, если в выходную таблицу необходимо включить строку для k-го наименьшего значения для каждого диапазона данных. В соответствующем окне введите число k. Если k равно 1, эта строка будет содержать минимум из набора данных.

Выходной диапазон. Введите ссылку на левую верхнюю ячейку выходного диапазона. Этот инструмент анализа выводит два столбца сведений для каждого набора данных. Левый столбец содержит метки статистических данных; правый столбец содержит статистические данные. Состоящий их двух столбцов диапазон статистических данных будет выведен для каждого столбца или для каждой строки входного диапазона в зависимости от положения переключателя Группирование.

Если хотим вывести результаты расчета на новый лист, то установите переключатель, чтобы открыть новый лист в книге и вставить результаты анализа, начиная с ячейки A1. Если в этом есть необходимость, введите имя нового листа в поле, расположенном напротив соответствующего положения переключателя.

Если хотим вывести результаты расчета в новой книге, то установите переключатель, чтобы открыть новую книгу и вставить результаты анализа в ячейку A1 на первом листе в этой книге.

Итоговая статистика. Установите флажок, если в выходном диапазоне необходимо полу-

Автор: доцент Андаспаева А.А.

10

чить по одному полю для каждого из следующих видов статистических данных, представленных в таблице 2.

Таблица 2

Наименование показателя

 

при расчетах с использованием

Примечания

«Описательной статистики»

 

Среднее

Среднее значение

 

 

Стандартная ошибка

Абсолютная ошибка выборки

 

 

 

Число, которое является серединой множества чисел,

Медиана

то есть половина чисел имеют значения большие, чем

медиана, а половина чисел имеют значения меньшие,

 

 

чем медиана

Мода

Наиболее часто встречающееся или повторяющееся

значение в массиве или интервале данных

 

Стандартное отклонение

Среднее квадратическое отклонение

 

 

Дисперсия выборки

Дисперсия

 

 

Эксцесс

Эксцесс

 

 

Асимметричность

Асимметрия

 

 

Интервал

Размах варьирования

 

 

Минимум

Минимум

 

 

Максимум

Максимум

 

 

Сумма

Сумма всех значений в выборке

 

 

Счет

Количество значений в выборке

 

 

Наибольший

k-тое наибольшее значение для каждого диапазона

данных

 

Наименьший

k-тое наименьшее значение для каждого диапазона

данных

 

Уровень надежности

Уровень надежности

 

 

.

 

3 Сводные характеристики выборки для партии материала. Доверительные интервалы

Для исследователя важно знать точность и надежность оценки каждого определенного параметра, представления о которых дают доверительные интервалы.

Односторонним доверительным интервалом называют интервал от Х- ε до неизвестного па-

раметра или от неизвестного параметра до Х+ ε, который устанавливает либо нижнюю, либо верхнюю границу неизвестного параметра с заданной доверительной вероятностью Рд.

Двусторонним доверительным интервалом называют интервал от Х- ε до Х+ε, который по-

крывает неизвестный параметр распределения с заданной доверительной вероятностью Рд. Доверительная ошибка ε характеризует случайную ошибку параметра распределения. Чем

меньше значение ε тем больше точность оценки Х.

Доверительной вероятностью Рд или надежностью, соответствующей данному доверительному интервалу, называется вероятность того, что истинное значение многих числовых характеристик Х лежит в этом интервале.

Величина, равная = 1 - Рд называется уровнем значимости и иногда выражается в %. Она характеризует вероятность событий, условно принимаемые за невероятные.

Для контроля качества продукции доверительную вероятность Рд принимают равной 0,95 –

0,99.

Доверительный интервал ограничен нижней и верхней доверительными границами, в его пределах с некоторой вероятностью находится сводная характеристика.

Доверительные интервалы для среднего значения.

Для односторонней границы:

Автор: доцент Андаспаева А.А.