- •Глава 4 непараметрические методы
- •4.1. Введение
- •4.2. Оценка плотности распределения
- •4.3. Парзеновские окна
- •4.3.1. Общие соображения
- •4.3.2. Сходимость среднего значения
- •4.3.3. Сходимость дисперсии
- •4.3.4. Два примера
- •4.4. Оценка методом kn ближайших соседей
- •4.5. Оценка апостериорных вероятностей
- •4.6. Правило ближайшего соседа
- •4.6.1. Общие замечания
- •4.6.2. Сходимость при использовании метода ближайшего соседа
- •4.6.3. Уровень ошибки для правила ближайшего соседа
- •4.6.4. Границы ошибки
- •4.7. Правило k ближайших соседей
- •4.8. Аппроксимации путем разложения в ряд
- •4.9. Аппроксимация для бинарного случая
- •4.9.1. Разложение Радемахера - Уолша
- •4.9.2. Разложение Бахадура - Лазарсфельда
- •4.9.3. Разложение Чоу
- •4.10. Линейный дискриминант Фишера
- •4.11. Множественный дискриминантный анализ
- •4.12. Библиографические и исторические сведения
4.9.2. Разложение Бахадура - Лазарсфельда
Другое интересное разложение получают введением нормированных величин
(51)
считая, конечно, что pi не является ни нулем, ни единицей. Эти нормированные переменные имеют нулевое среднее и дисперсию, равную единице. Множество полиномов, похожих на полиномы Радемахера — Уолша, можно получить, систематически образуя различные произведения сомножителей в следующем порядке: ни одного сомножителя, один сомножитель, два и т. д. Так что имеем
Эти полиномы не ортогональны сами по себе, но они ортогональны, если ввести весовую функцию
(53)
т. е.
(54)
Это следует из того, что Р1 (х) является распределением для cлучая с независимыми переменными и что в этом случае моменты E[(x) (x)] являются или нулем, или единицей. Следовательно любую функцию, определенную на единичном d-кубе можно разложить как '
где
В частности, функцию Р(х)/Р1 (х) можно представить в виде
, (55)
где
. (56)
Вспомнив, что (х) есть произведение нормированных переменных =, видим, что -это коэффициенты корреляции. Очевидно, что =1 и =. . . =0. Если определить
(57)
то можно представить соотношение (55) как
(58)
Оно известно как разложение Бахадура—Лазарсфельда Р(х). В нем содержится —1 коэффициентов, d вероятностей , первого порядка, коэффициентов корреляциивторого порядка, коэффициентов корреляции третьего порядка и т. д. Естественный способ аппроксимироватьР (х) — это игнорировать все корреляции свыше определенного порядка. Таким образом,
есть аппроксимация первого порядка Р(х),
есть аппроксимация второго порядка и т. д. Если коэффициенты корреляции высокого порядка невелики и мы используем аппроксимацию log(1+x)x, то видим, что logP1(x) линейный относительно х, logP2(x) добавляет квадратичный член корреляции и т. д. Таким образом, логарифм разложения Бахадура — Лазарсфельда дает интересную последовательность аппроксимаций. Первая аппроксимация эквивалентна допущению независимости, и она линейна относительно х. Вторая отвечает корреляции второго порядка и квадратична относительно х. Каждая последующая аппроксимация отвечает корреляциям более высокого порядка, но, конечно, требует вычисления большего количества членов.
4.9.3. Разложение Чоу
Другой интересный класс аппроксимаций совместного распределения вероятностей Р(х) основан на тождестве
(59)
Если переменные статистически независимы, оно сводится к произведению отдельных вероятностей Р(хi). Предположим, что переменные не являются независимыми, но что Р (хi|хi-1, . . .,x1) зависит только от непосредственно предшествующей переменной хi-1. Тогда имеем марковскую цепь первого порядка и
(60)
Мы увидим, что каждый сомножитель Р(хi| хi-1) можно определить с помощью двух коэффициентов; значит, Р(х) можно определить с помощью 2d—1 коэффициентов, что будет менее сложно, чем если бы мы допустили все корреляций второго порядка. Аналогичные марковские аппроксимации более высокого порядка можно получить, если допустить, что , зависит только отk непосредственно предшествующих переменных.
Допущение, что заданная переменная , зависит только от определенных предшествующих переменных, приемлемо, если мы имеем дело с временным процессом; для более общих случаев это допущение выглядит довольно нелепо. Тем не менее есть основание полагать, что заданная переменнаяможет в основном зависеть только от нескольких других переменных. Предположим, что мы можем занумеровать переменные так, чтоP(|, . . ., ) целиком зависит от некоторой предшествующей переменной).
Например, допустим, что
и
Тогда из (59) следует, что можно записать как. Вообще мы получаем разложение в виде произведения
. (61)
Подставляя 0 или 1 вместо ичитатель может проверить, что
(62)
где
(63)
и
(64)
Полагая , подставляя (62) в соотношение (61), беря логарифм и собирая члены, получаем разложение Чоу
(65)
Аналогичные результаты легко можно получить для зависимости более высокого порядка.
Следует сделать несколько замечаний относительно этих результатов. Во-первых, если переменные действительно независимы, мы замечаем, что =и последние две суммы в разложении исчезают, оставляя уже знакомые разложения для случая с независимыми переменными. Когда зависимость имеется, мы получаем дополнительные линейные и квадратичные члены. Конечно, линейные члены можно объединить так, чтобы в разложении содержались константа,d линейных членов и d-1 квадратичных членов.
Сравнивая это разложение с разложением второго порядка Радемахера - Уолша или Бахадура - Лазерсфельда, для каждого из которых требуется d(d—1)/2 квадратичных членов, видим, что преимущества данного разложения могут быть значительными. Конечно, эти преимущества можно реализовать только в том случае, если мы знаем дерево зависимости-функцию j(i), которая показывает ограниченную зависимость одной переменной от предыдущих переменных. Если дерево зависимости нельзя вывести из физической значимости переменных, то может возникнуть необходимость в вычислении всех коэффициентов корреляции просто для того, чтобы найти значимые. Однако следует заметить, что даже в этом случае может быть предпочтительнее использовать разложение Чоу, так как получаемые при этом приближенные вероятности будут всегда неотрицательными и их сумма будет равна единице.