Скачиваний:
57
Добавлен:
01.05.2014
Размер:
493.06 Кб
Скачать

X1, x2,…, Xn, x1, x2,…, Xn, x1, x2,…, Xn;

многократное повторение процедуры на различных вариантах последовательностей Xi1, Xi2,…, Xin из случайно перетасованных Xi с целью выбора наиболее воспроизводимых результатов разбиения.

Замечание 2. В целях ускорения сходимости описанной процедуры целесообразно воспользоваться частичными обучающими выборками для образования «нулевого приближения» Z(0) центров тяжести классов по правилу

,

где

(l = 1, 2, …, s)

средние арифметические, построенные по наблюдениям l-й частичной обучающей выборки. Соответственно k(0) = s. После этого проводятся все необходимые циклы-этапа А и подсчет Cij(0) i, j = 1, 2, …, s до тех пор, пока не окажется выполненным соотношение (1.13), либо не останется всего лишь один класс. Затем извлекается наблюдение X1 и выполняются все необходимые вычисления (v + 1)-го шага процедуры при v = 0 и т. д.

2. О некоторых свойствах, используемых в процедуре статистик

Следующие результаты поясняют смысл описанной процедуры классификации и использованных в ней статистик и процентных точек.

Лемма 1. Оценкой максимального правдоподобия (с устраненным смещением) для  по совокупности квазиобучающих выборок является матрица вида

и

,

где .

Лемма 2. Статистика может быть представлена в виде

,

где Yk независимы и дляk = 1, 2, ..., m-s.

Лемма 3. Пусть, где

, ,

причем

, .

Тогда подчинено нецентральномуF-распределению , где параметр нецентральности

.

В частности, когда все аrl и aqk равны между собой, то распределение центральное, т. е.  = 0.

Для доказательства сформулированных лемм достаточно воспользоваться приемами и результатами работы [1], и в частности: в лемме 1 составить функцию правдоподобия и воспользоваться леммами 3.2.1 - 3.2.3 [1]; в лемме 2 при анализе блочно-диагональной матрицы ортогонального преобразования, переводящего Xjl в Yi, воспользоваться теоремой 3.3.1 и леммой 3.3.1 [1]; в лемме 3 воспользоваться нашей леммой 2 и теоремой 5.2.2 из [1].

В конечном счете исследователя, естественно, интересуют характеристики качества описанной процедуры и в частности:

насколько точно число классов k(n), полученное в результате нашего алгоритма, характеризует истинное число классов kn, представленных в последовательности {Xj}?

какова доля неправильно расклассифицированных объектов, а точнее - вероятность неправильной классификации в данном алгоритме?

Ответы на поставленные вопросы можно было бы получить с помощь ю анализа вероятностей

,

где - некоторое фиксированное положительное число и

, i = 1, 2, …, kn.

ii - вероятность того, что наблюдение, принадлежащее к i-му классу, будет отнесено, в результате применения нашей процедуры, именно к этому, i-му классу. Сформулированные выше свойства используемых в данной процедуре статистик должны помочь нам в этом анализе. В частности, интересно было бы получить описание функции в оценке вида

,

где - введенный ранее уровень используемой в процедуре процентной точки F-распределения, K - максимальное число классов, из которых извлекаются наблюдения {Xj}, n - общее число наблюдений, подлежащих классификации,

,

,

а - параметр нецентральностиF-распределенной случайной величины, - некоторая известная монотонно возрастающая функция аргумента 0.

При этом, очевидно, - монотонно убывающая (до нуля) функция0, а - монотонно возрастающая функция по, и K, и монотонно убывающая функция по и n. Если прии при любых фиксированных, , и K, то естественно называть соответствующую процедуру классификации k-состоятельной.

1 Этот метод разработан Ю. И. Журавлевым (ВЦ АН СССР).

1Черта сверху используется как знак теоретико-множественного дополнения, т. е. множествосостоит из всех точек пространстваR(p), не принадлежащих к множествуS

Соседние файлы в папке glava1_2