Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Для диссертантов_статанализ.doc
Скачиваний:
5
Добавлен:
16.08.2019
Размер:
249.34 Кб
Скачать

Для диссертантов

Статистический aнализ

Введение в математическую статистику

А.П. Гаськов

Пролог

Цель этого материала дать самые начальные ознакомительные понятия по математической статистике и эпидемиологии на самом простом уровне. Автор пытался на примерах разъяснить смысл базовых формул и понятий обычно применяемых для расчетов. Возможно, в некоторых случаях это несколько примитивизирует их смысл, но, используя это за исходную точку, Вы можете затем свои знания углублять в более серьезной литературе. Более того, если у Вас возникнут вопросы и недоверие к поданному материалу, и Вы посчитаете нужным в этом более подробно разобраться, чтобы посадить автора в лужу, автор будет считать, что свою задачу выполнил на все 100%.

При работе с мат. статистикой и эпидемиологией есть одна проблема. Многие одинаковые параметры в разной литературе называются по-разному и отображаются разными обозначениями. Поэтому важно запоминать не только термины, но и какой у них смысл, чтобы не путаться.

Что мы изучаем?

Тем, кто занимается наукой стоит обратить внимание на следующее.

Задача исследователя заключается в том, что на основании изучения выборки из популяции получить некоторые результаты, и затем их обобщить на всю популяцию. Изучение выборки ради самой выборки большого смысла не имеет. Более того, так как выборки обычно сравнительно малы и их можно настолько точно описать, то для них и никакой статистики не нужно.

Пример. Возьмем две группы наркозависимых из Центра и определим, что больший процент из тех, кто прошел групповую психотерапию, имеет больший срок ремиссии, чем те, кто не проходил. Здесь все можно посчитать с точностью до дня и до человека простым сложением. И разделив одно на другое показать, что эффект есть. Но это не наука, а бухгалтерия.

Задача ученого в том, чтобы статистически доказать, что больший процент наркозависимых в городе (области, стране, мире), которые пройдут групповую психотерапию, будут иметь больший срок ремиссии.

Зачем нужна математическая статистика?

Первое, что следует из предыдущего, она позволяет на основе расчетов по небольшой выборке распространить результаты на популяцию.

И это может иметь смысл не только в науке. Например, стоит задача на целую армию нашить сапог. Встает вопрос, сколько и каких размеров? Перемерить всех солдат, наверное, можно, но ведь шить-то надо еще на тех, кто  придет в армию. Значит, имеет смысл отобрать некоторую группу, сделать замеры и нашить пропорционально. Но какую нужно выбрать группу, чтобы она была представительной, иначе репрезентативной, и достаточно точно отражала пропорции и размеры ног всей армии, с одной стороны, и в тоже время не была слишком большой, чтобы не тратить слишком много времени на измерения? Все это вопросы математической статистики.

Второе, не менее важное предназначение - быть независимым арбитром в научных спорах. Многие научные гипотезы невозможно доказать абсолютно точно. Особенно это касается медицины. Например, любой метод лечения не бывает сто процентов эффективным. Если бы это было так, то, наверное, иных методов не существовало, и сравнивать было не с чем и незачем. Но вот при сравнении методов возникает много проблем. Результаты исследований могут описываться разными способами, и, наверное, каждый исследователь выбрал бы тот вариант, который показывал бы результат в более выгодном свете. А математическая статистика имеет набор стандартных формул, который одинаков для всех.

Но, кроме математического аппарата, необходимы также и одинаковые общие подходы. Нужны писанные законы по которым планируется и проводится исследование. Этим занимается наука эпидемиология.

В дальнейшем по тексту будут использованы не медицинские примеры, а более ощутимые, например, камни. Но при небольшой фантазии этим примеры можно легко спроецировать и на другие серьезные вещи. Надо сказать, что без фантазии заниматься статистикой и эпидемиологией вообще не стоит. Имеется в виду не фантазия при подгонке результатов, а фантазия для правильного учета многих факторов.

 Что такое нулевая гипотеза?

Очень часто в литературе используется термин “Нулевая гипотеза”. Почему “Нулевая”, наверное, потому, что она подходит ко всем исследованиям при сравнении любых групп. И гласит она, что разницы между этими группами нет (нуль), а разница между изучаемыми выборками из этих групп случайна.

Или может быть такой вариант:

Представьте, что у вас во дворе лежит две кучи камней. Нулевая гипотеза это то, что они привезены из одного карьера и отличие камней в разных кучах совершенно случайно.

Что такое Р?

Вы, конечно, можете проанализировать эти камни и прийти каким-то образом к выводу, что они все-таки из разных карьеров. Но вряд ли будете уверены на все 100%. Вот вероятность того, что Вы ошибочно откинете нулевую гипотезу и примете неправильное решение и есть P. В эпидемиологии принято, что P должно быть меньше 5%. Если вероятность ошибки больше, то настоящие ученые даже не выносят такие вещи на обсуждение. Но если P меньше 5%, то все равно есть вероятность того, что показанный результат на самом деле неверен.

В этом есть определенный большой плюс. Каждое проведенное кем-то исследование можно повторять заново много раз, ведь вполне возможно, что предыдущие исследователи ошибались. Поэтому научная деятельность никогда не кончится.

Что такое распределение?

Если Вы будете брать камни из кучи, распределите их на группы по весу, например, в каждой группе отличающиеся не больше чем на 1 грамм, и количество камней в каждой группе отобразите вертикальной полоской как на рисунке, то это и будет распределение.

Что такое нормальное распределение?

Если Ваше распределение получится похожим на симметричный холм, то оно называется нормальным. Почему “нормальным”? Возможно, из-за того, что для этого вида распределения математики нашли подход и придумали формулы, а к остальным более сложным распределениям это оказалось сложнее, так что это быстрее всего вопрос психиатрии.

Многие распределения не нормальны. Например, если кидать кубик с подписанными гранями и смотреть, сколько каких граней будет выпадать при большом количестве бросков, то окажется, что распределение будет похоже на прямоугольник, см. рисунок. Т.е., все числа на гранях будут выпадать примерно одинаковое число раз. Это равномерное распределение.

1

2

3

4

5

6

Оно, конечно, даже проще чем нормальное, но, к сожалению, редко встречается. Остальные могут иметь самую причудливую форму.

Философы доказали, что нормальное распределение получается в результате воздействия многих независящих друг от друга факторов. Это приводит к тому, что распределение средних величин распределенных ненормально имеет нормальное распределение.

Возьмем, например, 10 кубиков и будет их подбрасывать вместе, а затем считать среднее значение выпавших чисел. Если подбрасывать много раз, то чаще всего среднее будет где-то около 3,5, а такие средние как 1 будут исключительно редко, ведь для этого нужно, чтобы на всех кубиках выпали одновременно единицы, что бывает крайне редко. Тоже самое с 6. Кто играет в Бинго, тот это знает. В результате получится распределение похожее на холм.

Точно также и среднее для монеток. Правда, бывают случае, что одна грань у фальшивой монетки такая тяжелая, что она исключительно редко падает на легкую сторону, тогда распределение не нормальное, а биноминальное, но для него тоже есть формулы.

Гистограмму распределения хорошо видно на глаз, но в формулу рисунок не подставишь. Нужны какие-то числовые параметры, чтобы они отображали свойства распределения. Главные среди них - это среднее значение, дисперсия и среднеквадратичное отклонение. 

Что такое среднее значение?

Вам сказали, что в городе минимальная цена на мясо 100 у.e., а максимальная цена 200 у.e.. Какая средняя цена? Предполагаю, что скажите 150.

А если дополнить условие и сказать, что в девяти магазинах цена 200, а в одном 100, то тогда наверное посчитаете, как (200*9+100)/10. И первое среднее и второе также среднее.

Второе среднее называется в математической статистике средневзвешенным или среднеарифметическим и используется именно оно, хотя слово средневзвешенное всегда забывают сказать. 

Что такое дисперсия?

Явно, что холмы распределения даже при одной площади могут иметь разный вид. Одни более широкие, а другие более узкие. Например, есть две палаты больных. В одной лежат с воспалением легких, а в другой люди с психическими расстройствами. Совершенно понятно, что во второй палате распределение температур будет очень близко к норме 36,7, а в первой могут быть и близко к нормальной и даже до 40 и близкими к 36, а может быть и комнатная, для тех, кто уже умер. Это свойство как-то нужно оценить. Для этого придумали такую формулу.

Сначала рассчитывают среднюю величину температуры , затем рассчитывают отклонения температуры каждого больного от средней возводят в квадрат и суммируют со всеми остальными. Зачем возводить в квадрат? Во-первых, иначе температуры находящиеся по обе стороны от среднего значения друг друга бы компенсировали. А во вторых, возведение в квадрат увеличивает вес тех, кто уж очень сильно отклонился от средней величины.

Допустим, у нас есть пять человек с нормальной температурой и один с отклонением два градуса.

Дисперсия равна (0+0+0+0+0+4)/(6-1)=4/5.

Такую же дисперсию мы можем получить, если у нас будет четыре человека с отклонением на один градус. (0+1+1+1+1+0)/(6-1)=4/5.

Таким образом, один больной с температурой на 2 градуса от средней величины, приведет к увеличению дисперсии как четыре больных с разницей на 1 градус.

Зачем это делается? Для того, чтобы можно было бы математически правильно высчитать вероятность P.

Делится числитель на количество больных минус единица. Откуда взялась эта минус единица это вопрос глубокой математики, но, говорят так точнее получится P, к тому же при больших n это не сильно сказывается.

Чем больше дисперсия, тем сильнее разброс параметров.