Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теория систем и системный анализ.doc
Скачиваний:
114
Добавлен:
15.11.2018
Размер:
1.69 Mб
Скачать
      1. Числовые модели

Числовые модели отличаются от классификационных тем, что: 1) целевые признаки измеряются в числовых шкалах; 2) числа х0 представляют собой функционалы или функции признаковых переменных (которые Не обязательно все являются числовыми); 3) в них гораздо чаще учитываются связи переменных во времени (в классификационных задачах время иногда даже называют "забытой" переменной). В связи с этим и протоколы наблюдений могут не обязательно относиться к множеству объектов; модель можно уточнять и по экспериментам с одним объектом в разные моменты времени.

Отметим, что числовые модели могут задавать связь между переменными как .в параметризованной форме (т.е. в виде функции с конечным числом параметров), так и в непараметризованной форме (в виде функционала) . Например, за висимость между входом х={хi} и выходом у некоторой системы может задаваться в виде параметризованной линейной регрессии у=iaiхi+bi либо в непараметризованной форме как функционал линии регрессии у(х)= y p(y|x)dy, где p(y|x) - неизвестная плотность условного распределения вероятностей.

Приведем типичные задачи для числовых моделей.

Косвенные измерения (оценка параметра). Требуется определить значение х0 по заданному множеству ij}. В отличие от классификации х0 измеряется не в номинальной, а в числовой шкале. Если ij} определены до некоторого момента t0, а х0 требуется оценить для t>t0, то задача называется прогнозированием. (Прогнозирование имеет смысл и в задаче классификации; например, ранняя диагностика заболевания.)

Поиск экстремума (планирование эксперимента). Считается, что имеется возможность пошагового изменения величин ij(tk)}, tk=t0+kt, k=0,1,2, .... Требуется изменять их так, чтобы в конце концов получить экстремальное значение целевого признака х0.

      1. Особенности протоколов наблюдений

Отметим встречающиеся на практике особенности реальных протоколов наблюдений, которые следует учитывать при их обработке.

Большая размерность. Во многих исследованиях число объектов N и число признаков п велики, так что произведение n N достигает нескольких десятичных порядков. Учет времени приводит к еще большему увеличению размерности блока данных. В настоящее время применение ЭВМ существенно расширяет количественные возможности обработки данных, но "проклятие размерности" остается в силе и для ЭВМ.

Разнотипность данных. Разные признаки могут измеряться в различных шкалах. Многие алгоритмы построены для обработки однотипных переменных, что часто вызывает необходимость приводить разнотипные данные к одной шкале. Ясно, что более правильной стратегией поведения является разработка алгоритмов, специально построенных так, чтобы имелась возможность обрабатывать разнотипные данные, не внося в протокол никаких изменений, не связанных с экспериментом.

Пропущенные значения. Незаполненная ячейка таблицы данных - не такой уж редкий случай, особенно если эксперимент производится не в лабораторных, а в естественных условиях. Исключить из таблицы строку и столбец, на пересечении которых находится пустая ячейка, - выход далеко не всегда приемлемый. Можно, используя избыточность таблицы, некоторым образом "восстановить" пропущенные значения, а затем обрабатывать таблицу так, будто их и не было. Однако критерий "восстановления" и цель обработки должны быть согласованы, поэтому не может быть универсального способа "восстановления" пропусков. Хотя этот путь в ряде случаев вполне допустим, перспективным представляется конструирование алгоритмов обработки, позволяющих использовать таблицы с пробелами без их предварительного заполнения.

Зашумленность. Довольно часто измерение, занесенное в протокол, на самом деле отличается от измеряемого значения на некоторую случайную величину. Статистические свойства этой добавочной помехи могут не зависеть от измеряемой величины, и тогда мы говорим об аддитивном шуме. В противном случае имеет место неаддитивная или зависимая помеха. Все эти варианты должны по-разному учитываться при обработке.

Искажения, отклонения от предположений. Приступая к обработке протокола наблюдений, мы всегда исходим из определенных предположений о природе величин, занесенных в протокол. Любой способ обработки дает результаты ожидаемого качества только в том случае, если данные отвечают определенным предположениям. Далеко не всегда в ходе обработки данных обращают внимание на то, действительно ли данные отвечают предположениям, заложенным в алгоритм обработки.

Например, данные могут выглядеть как неразмытые, но быть на самом деле расплывчатыми (см. § 6.3). Цифры в действительности могут быть символами, а мы можем считать, что они числа. Числовые шкалы предполагают одинаковость единиц измерения вдоль всей шкалы (см. § 6.2), а измерительный прибор может обладать нелинейной характеристикой, и если это не отражено в протоколе, то мы будем обрабатывать искаженные данные. Измеряемая величина может быть непрерывной, но в протоколе она неизбежно приводится с округлением, и это также является искажением.

Чтобы повысить качество выводов, получаемых при обработке данных, мы должны обеспечить соответствие свойств данных и требований к ним алгоритмов либо максимально обезопасить себя от возможного несоответствия: контролировать условия эксперимента; вносить допустимые поправки в протоколы (например, производить перерасчет нелинейности); наконец, разрабатывать алгоритмы, либо содержащие возможный минимум предположений (например, процедуры непараметрической статистики), либо специально разработанные с расчетом на возможные отклонения (как в робастной статистике).

Способы обработки экспериментальных данных с целью извлечения из них полезной информации и отсеивания ненужной, мешающей, мы рассмотрим в следующей главе.

Подведем итог: Данный параграф посвящен тому, как обрабатывать результаты измерений. Рассмотрены два аспекта этой проблемы: связь способа обработки с целью измерений (т.е. в конечном счете с проверяемой моделью) и его связь с условиями измерений, приводящими к тому, что реальные протоколы наблюдений обычно далеки от желаемого идеала.