- •Основные условные обозначения в математической статистике
- •Содержание
- •Введение
- •Основы теории вероятностей
- •1Предмет и метод математической статистики
- •2Понятие случайного события
- •3Вероятность случайного события
- •4Основные теоремы теории вероятностей
- •4.1Сложение вероятностей
- •4.2Умножение вероятностей
- •4.3Вычисление вероятностей
- •Случайные переменные
- •5Понятие случайной переменной
- •5.1Дискретные случайные переменные
- •5.2Непрерывные случайные переменные
- •6Математическое ожидание и дисперсия
- •7Моменты
- •Дискретные распределения
- •8Биномиальное распределение и измерение вероятностей
- •9Распределение редких событий (Пуассона)
- •Основные модели теоретических распределений
- •10Прямоугольное (равномерное) распределение
- •11Нормальное распределение
- •12Логарифмически нормальное распределение
- •Распределения параметров выборки
- •13.1Проблема Беренса–Фишера
- •15Χ2–распределение
- •Основы математической статистики
- •16Средние величины
- •16.1Общие свойства средних величин
- •17Средняя арифметическая
- •17.1Средний ранг (непараметрическая средняя)
- •17.2Взвешенная средняя арифметическая
- •17.3Средняя квадратическая
- •17.4Мода
- •17.5Медиана
- •18Средняя геометрическая
- •19Средняя гармоническая
- •Разнообразие значений признака
- •20Стандартное (среднеквадратическое) отклонение
- •20.1Число степеней свободы
- •20.2Коэффициент вариации
- •20.3Лимиты и размах
- •20.4Приближенные значения μ и
- •20.5Нормированное отклонение
- •21Проверка выпадов (артефактов)
- •22Средняя и сигма суммарной группы
- •23Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения
- •Графическое представление распределений
- •24Вариационный ряд
- •25Гистограмма и вариационная кривая
- •26Кумулята
- •27Достоверность различия распределений
- •27.1Критерий χ2 (хи квадрат)
- •27.2Критерий λ (лямбда)
- •27.3Критерий по асимметрии и эксцессу
- •Нормальное распределение
- •28Генеральная совокупность и выборка
- •29Репрезентативность
- •30Ошибки репрезентативности и другие ошибки исследований
- •31Доверительные границы
- •Оценка генеральных параметров
- •32Общий порядок оценки
- •32.1Оценка средней арифметической
- •32.2Оценка средней разности
- •32.3Недостоверная и достоверная оценка средней разности
- •32.4Оценка разности генеральных средних
- •33Критерий достоверности разности
- •34Репрезентативность при изучении качественных признаков
- •35Достоверность разности долей
- •Парная корреляция
- •36Коэффициент корреляции
- •37Ошибка коэффициента корреляции
- •37.1Достоверность выборочного коэффициента корреляции
- •37.2Доверительные границы коэффициента корреляции
- •37.3Достоверность разности двух коэффициентов корреляции
- •38Уравнение прямолинейной регрессии
- •39Ошибки элементов уравнения прямолинейной регрессии
- •Частная и множественная линейные корреляции и регрессии
- •40Частный коэффициент корреляции
- •41Множественный коэффициент корреляции
- •42Линейное уравнение множественной регрессии
- •Криволинейная корреляция и регрессия
- •43Корреляционное отношение
- •44Свойства корреляционного отношения
- •45Ошибка репрезентативности корреляционного отношения
- •46Критерий линейности корреляции
- •Однофакторный дисперсионный анализ
- •47Сущность и метод дисперсионного анализа
- •47.1Результативный признак
- •47.2Фактор
- •47.3Градации факторов
- •47.4Градации комплекса
- •47.5Дисперсионный комплекс
- •47.6Статистические влияния
- •47.7Факториальное влияние
- •47.8Случайное влияние
- •47.9Общее влияние
- •48Однофакторный дисперсионный комплекс
- •Многофакторный дисперсионный анализ
- •49Многофакторный дисперсионный комплекс
- •50Преобразования
- •51Универсальное использование дисперсий
- •51.1Показатели силы влияний
- •51.2Ошибка репрезентативности основного показателя силы влияния
- •51.3Предельные значения показателей силы влияния
- •51.4Достоверность влияний
- •Классификация
- •52Дискриминантный анализ
- •52.1Постановка задачи, методы решения, ограничения
- •52.2Предположения и ограничения
- •52.3Алгоритм дискриминантного анализа
- •53Кластерный анализ
- •53.1Методы кластерного анализа
- •53.2Алгоритм кластерного анализа
- •Литература
- •Приложение. Основные формулы и определения
- •2 46019, Г. Гомель, ул. Советская, 104
37Ошибка коэффициента корреляции
Как и всякая выборочная величина, коэффициент корреляции имеет свою ошибку репрезентативности, вычисляемую для больших выборок по формуле:
, (11.7)
где – коэффициент корреляции в генеральной совокупности, из которой взята выборка;
n – численность выборки, т. е. число пар значений, по которым вычислялся выборочный коэффициент корреляции.
Поскольку в числителе формулы ошибки выборочного коэффициента корреляции стоит квадрат генерального коэффициента корреляции, то эта формула может применяться лишь в исключительных случаях, когда заранее известна или предполагается степень корреляции в генеральной совокупности.
Пример
Для проверки гипотезы о том, что коэффициент корреляции между детьми и родителями = +0,5, была сопоставлена плодовитость 226 лисиц и их дочерей в соответствующем возрасте и в сходных условиях. Коэффициент корреляции оказался равным +0,45. Подтверждает или опровергает этот результат гипотезу?
В данном случае разность между выборочным и генеральным коэффициентами d = +0,45– 0,50 = –0,05, а ее ошибка равна ошибке выборочного коэффициента, так как генеральные величины не имеют ошибок репрезентативности. Для вычисления ошибки коэффициента корреляции имеется возможность применить точную формулу с генеральным коэффициентом в числителе:
Оказалось, что критерий достоверности разности не превышает даже первого порога достоверности (t1 = 2,0; 1 = 0,95).
Гипотеза в данном исследовании не опровергнута, так как эмпирический коэффициент корреляции недостоверно отличается от гипотетического.
В большинстве исследований значение коэффициента корреляции в генеральной совокупности неизвестно, поэтому вместо точного значения ошибки коэффициента корреляции берут приближенное значение:
, (11.8)
где:
r – выборочное значение коэффициента корреляции,
n – число сравниваемых пар данных или число объектов, у которых измерены два признака.
Ошибка коэффициента корреляции используется для определения:
достоверности выборочного коэффициента корреляции;
доверительных границ генерального коэффициента корреляции;
достоверности разности двух выборочных коэффициентов корреляции;
достоверности разности между выборочным и генеральным коэффициентом корреляции.
37.1Достоверность выборочного коэффициента корреляции
Критерий выборочного коэффициента корреляции определяется по формуле:
(11.9)
где:
– критерий достоверности коэффициента корреляции;
r – выборочный коэффициент корреляции;
n – число коррелированных пар данных;
tst – стандартное значение критерия Стьюдента, определяемое по таблице для установленного числа степеней свободы и порога вероятности безошибочных прогнозов.
При t ≥ tst коэффициент корреляции достоверен. В этом случае с определенной вероятностью можно считать, что между коррелируемыми признаками имеется связь и в генеральной совокупности такая же по знаку, какая получилась в выборке (прямая или обратная).
При t < tst выборочный коэффициент корреляции недостоверен, что не дает возможности сделать какое-либо заключение о связи признаков в генеральной совокупности. Для выяснения этого вопроса требуется провести повторные исследования на более многочисленном материале.
Пример
При проверке гипотезы о связи крупноплодности с жирномолочностью был рассчитан коэффициент корреляции между процентом жира в молоке у 50 коров и весом при рождении телят от этих же коров. Получено:
коэффициент корреляции: r = +0,21;
его ошибка: ;
критерий достоверности: ; = 48;
tst = {2,0 – 2,7 –3,5}.
Выборочный коэффициент оказался явно недостоверным. На основе проведенного исследования нельзя ожидать связи между крупноплодностью и жирномолочностью у всех коров вообще.
Определение достоверности коэффициента корреляции можно значительно упростить, используя свойства особой функции предложенной Фишером:
(11.10)
При помощи этой функции можно заранее определить, при каком объеме выборки коэффициент корреляции определенной величины будет достоверен по требуемому порогу вероятности безошибочных прогнозов, по следующей формуле:
, (11.11)
где:
– количество пар значений, достаточное для достоверности выборочного коэффициента корреляции,
t – критерий Стьюдента для каждого из трех порогов вероятности безошибочных прогнозов ( = 0,95, = 0,99, = 0,999), для больших групп: t1 = 1,96, t2=2,58, t3 = 3,30.
z – функция Фишера
По этой формуле рассчитано значение z и количество пар значений, достаточное для достоверности выборочного коэффициента корреляции для каждого из трех порогов вероятности безошибочных прогнозов.
В примере в выборке объемом n = 50 получен коэффициент корреляции r= +0,21.
При r = 0,21, рассчитаны три числа: 87 – 149 – 242. Это значит, что выборочный коэффициент корреляции, равный r = 0,21, может стать достоверным в том случае, если объем выборки (число коррелируемых пар данных) будет: для первого порога вероятности 87, для второго – 149, для третьего – 242. Так как фактический объем выборки n = 50 далеко не достигает первого, максимальною порога, то полученный коэффициент корреляции оказался недостоверным, что было найдено и обычным способом.
Объем выборки для первого порога вероятности безошибочных прогнозов 1 = 0,95 можно оценить, воспользовавшись простым соотношением: