- •Основные условные обозначения в математической статистике
- •Содержание
- •Введение
- •Основы теории вероятностей
- •1Предмет и метод математической статистики
- •2Понятие случайного события
- •3Вероятность случайного события
- •4Основные теоремы теории вероятностей
- •4.1Сложение вероятностей
- •4.2Умножение вероятностей
- •4.3Вычисление вероятностей
- •Случайные переменные
- •5Понятие случайной переменной
- •5.1Дискретные случайные переменные
- •5.2Непрерывные случайные переменные
- •6Математическое ожидание и дисперсия
- •7Моменты
- •Дискретные распределения
- •8Биномиальное распределение и измерение вероятностей
- •9Распределение редких событий (Пуассона)
- •Основные модели теоретических распределений
- •10Прямоугольное (равномерное) распределение
- •11Нормальное распределение
- •12Логарифмически нормальное распределение
- •Распределения параметров выборки
- •13.1Проблема Беренса–Фишера
- •15Χ2–распределение
- •Основы математической статистики
- •16Средние величины
- •16.1Общие свойства средних величин
- •17Средняя арифметическая
- •17.1Средний ранг (непараметрическая средняя)
- •17.2Взвешенная средняя арифметическая
- •17.3Средняя квадратическая
- •17.4Мода
- •17.5Медиана
- •18Средняя геометрическая
- •19Средняя гармоническая
- •Разнообразие значений признака
- •20Стандартное (среднеквадратическое) отклонение
- •20.1Число степеней свободы
- •20.2Коэффициент вариации
- •20.3Лимиты и размах
- •20.4Приближенные значения μ и
- •20.5Нормированное отклонение
- •21Проверка выпадов (артефактов)
- •22Средняя и сигма суммарной группы
- •23Скошенность (асимметрия) и крутизна (эксцесс) кривой распределения
- •Графическое представление распределений
- •24Вариационный ряд
- •25Гистограмма и вариационная кривая
- •26Кумулята
- •27Достоверность различия распределений
- •27.1Критерий χ2 (хи квадрат)
- •27.2Критерий λ (лямбда)
- •27.3Критерий по асимметрии и эксцессу
- •Нормальное распределение
- •28Генеральная совокупность и выборка
- •29Репрезентативность
- •30Ошибки репрезентативности и другие ошибки исследований
- •31Доверительные границы
- •Оценка генеральных параметров
- •32Общий порядок оценки
- •32.1Оценка средней арифметической
- •32.2Оценка средней разности
- •32.3Недостоверная и достоверная оценка средней разности
- •32.4Оценка разности генеральных средних
- •33Критерий достоверности разности
- •34Репрезентативность при изучении качественных признаков
- •35Достоверность разности долей
- •Парная корреляция
- •36Коэффициент корреляции
- •37Ошибка коэффициента корреляции
- •37.1Достоверность выборочного коэффициента корреляции
- •37.2Доверительные границы коэффициента корреляции
- •37.3Достоверность разности двух коэффициентов корреляции
- •38Уравнение прямолинейной регрессии
- •39Ошибки элементов уравнения прямолинейной регрессии
- •Частная и множественная линейные корреляции и регрессии
- •40Частный коэффициент корреляции
- •41Множественный коэффициент корреляции
- •42Линейное уравнение множественной регрессии
- •Криволинейная корреляция и регрессия
- •43Корреляционное отношение
- •44Свойства корреляционного отношения
- •45Ошибка репрезентативности корреляционного отношения
- •46Критерий линейности корреляции
- •Однофакторный дисперсионный анализ
- •47Сущность и метод дисперсионного анализа
- •47.1Результативный признак
- •47.2Фактор
- •47.3Градации факторов
- •47.4Градации комплекса
- •47.5Дисперсионный комплекс
- •47.6Статистические влияния
- •47.7Факториальное влияние
- •47.8Случайное влияние
- •47.9Общее влияние
- •48Однофакторный дисперсионный комплекс
- •Многофакторный дисперсионный анализ
- •49Многофакторный дисперсионный комплекс
- •50Преобразования
- •51Универсальное использование дисперсий
- •51.1Показатели силы влияний
- •51.2Ошибка репрезентативности основного показателя силы влияния
- •51.3Предельные значения показателей силы влияния
- •51.4Достоверность влияний
- •Классификация
- •52Дискриминантный анализ
- •52.1Постановка задачи, методы решения, ограничения
- •52.2Предположения и ограничения
- •52.3Алгоритм дискриминантного анализа
- •53Кластерный анализ
- •53.1Методы кластерного анализа
- •53.2Алгоритм кластерного анализа
- •Литература
- •Приложение. Основные формулы и определения
- •2 46019, Г. Гомель, ул. Советская, 104
53.2Алгоритм кластерного анализа
Кластерный анализ – это совокупность методов классификации многомерных наблюдений или объектов, основанных на определении понятия расстояния между объектами с последующим выделением из них групп, "сгустков" наблюдений (кластеров, таксонов). При этом не требуется априорной информации о распределении генеральной совокупности.
Выбор конкретного метода кластерного анализа зависит от цели классификации.
Кластерный анализ используется при исследовании структуры каких–либо совокупностей.
От матрицы исходных данных
(16.5)
переходят к матрице нормированных значений Z с элементами:
, (16.6)
где:
j = 1, 2, 3, 4 – номер показателя, i = 1,2,..., n – номер наблюдения;
; (16.7)
(16.8)
В качестве расстояния между двумя наблюдениями zi и zν используется "взвешенное" евклидово расстояние, определяемое по формуле:
(16.9)
Полученные значения удобно представить в виде матрицы расстояний:
, (16.10)
Так как матрица R симметрическая, т.е. , то достаточно ограничиться записью наддиагональных элементов матрицы.
Используя матрицу расстояний, можно реализовать агломеративную иерархическую процедуру кластерного анализа. Расстояния между кластерами определяют по принципу «ближайшего соседа» или «дальнего соседа». В первом случае за расстояние между кластерами принимают расстояние между ближайшими элементами этих кластеров, а во втором – между наиболее удаленными друг от друга.
Принцип работы иерархических агломеративных процедур состоит в последовательном объединении групп элементов сначала самых близких, а затем все более отдаленных друг от друга.
На первом шаге алгоритма каждое наблюдение zi (i = 1, 2,..., n) рассматривается как отдельный кластер. В дальнейшем на каждом шаге работы алгоритма происходит объединение двух самых близких кластеров, и вновь строится матрица расстояний, размерность которой снижается на единицу. Работа алгоритма заканчивается, когда все наблюдения объединены в один класс.
Вопросы для самоконтроля
В чем принципиальное отличие между дискриминантным и кластерным анализами при отнесении признака к какому-то либо существующему или вновь образующемуся классу?
По каким критериям можно выбирать оптимальный способ классификации признака при дискриминантном анализе?
Чем отличаются рандомизированные и нерандомизированные решающие правила при дискриминантном анализе?
В чем разница между двумя общими методами дискриминантного анализа: стандартного и пошагового?
При каком количестве обучающих выборок дискриминантный анализ может дать достаточно достоверную оценку разделения признаков?
Что может служить мерой сходства между объектами в кластерном анализе?
Чем отличаются методы одиночной, средней и полной связей в кластерном анализе?
Какое количество кластеров закладывается на первом этапе классификации n объектов?
Литература
ОСНОВНАЯ
Лакин, Г.Ф. Биометрия / Г.Ф. Лакин - М.: «Высшая школа», 1990. – 142 с.
Плохинский, Н.А. Биометрия / Н.А. Плохинский - М.: «МГУ», 1970. – 368 с.
Свалов, Н.Н. Вариационная статистика / Н.Н. Свалов - М.: «Лесная промышленность», 1977. – 177 с.
Рокитский, П.Ф. Биологическая статистика: изд. 3 испр. / П.Ф. Рокитский - Минск: «Вышейшая школа», 1973. – 320 с.
Жученко, Ю.М. Статистическая обработка информации с применением персональных компьютеров: практическое руководство для студентов 5 курса / Ю.М Жученко – Гомель: УО ГГУ им. Ф. Скорины, 2007.– 101 с.
Зайцев Г.Н. Математическая статистика в экспериментальной ботанике / Г.Н. Зайцев - М.: «Наука», 1984. – 424 с.
ДОПОЛНИТЕЛЬНАЯ
Мюллер, П. Таблицы по математической статистике / П. Мюллер [и др.] - М.: «Финансы и статистика», 1982. – 64 с.
Павловский, З. Введение в математическую статистику / З. Павловский - М.: «Статистика», 1967. – 285 с.
Карасев, А.И. Теория вероятностей и математическая статистика / А.И. Карасев - М.: «Статистика», 1979. – 279 с.
Бейли, Н. Математика в биологии и медицине / Н. Бейли - М.: «Мир», 1970. – 167 с.
Урбах, В.Ю. Статистический анализ в биологических и медицинских исследованиях / В.Ю. Урбах - М.: «Медицина», 1975. – 321 с.
Боровиков, В.П. Популярное введение в программу STATISTICA / В.П. Боровиков - М.: «КомпьютерПресс», 1998. – 69 с.
Лапач, С.Н. Статистические методы в медико-биологических исследованиях с использованием Excel / С.Н. Лапач [и др.] - К.: «МОРИОН», 2000. – 196 с.
Реброва, О.Ю. Статистический анализ медицинских данных: применение пакета прикладных программ STATISTICA / Реброва О.Ю. - М.: «МедиаСфера», 2002. – 84 с.