Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Теория систем и системный анализ.doc
Скачиваний:
114
Добавлен:
15.11.2018
Размер:
1.69 Mб
Скачать
      1. Правила "статистической техники безопасности"

В предыдущих параграфах установлено, что любой вариант задачи выбора сопряжен со сложностями, парадоксами, "ловушками" и опасностями, когда теоретические методы применяются на практике. Не является исключением и выбор в условиях статистической неопределенности. Неудачное или неправильное применение статистических методов к решению реальных проблем дало повод к появлению довольно зловещей шутки: "Есть три вида лжи - просто ложь, наглая ложь и статистика".

Причины неправильного применения статистических методов немногочисленны, и их знание совершенно необходимо. Перечень условий, связанных с отрицательными последствиями использования статистических решений, можно рассматривать как своего рода "инструкцию по технике статистической безопасности".

1. Статистический вывод по своей природе случаен, он может иметь высокую надежность и точность, но почти никогда не может быть абсолютно достоверным. В статистике этот факт и не скрывается, каждая процедура сопровождается характеристикой ее качества: оценка параметра имеет фиксированную точность (задаваемую, например, дисперсией); принятие одной из гипотез связано с вероятностями ошибок, сообщаемыми пользователю заранее. Когда необходимо ужесточить требования к качеству, это обычно можно сделать увеличивая объем выборки. Итак, статистический вывод может быть ошибочным, но мы можем варьировать характеристики этих ошибок (в пределах наличных ресурсов).

2. Качество решения на выходе статистической процедуры зависит от того, что подается на ее вход.

Известны случаи, когда проспавший лаборант утром сам сочинял "протокол" ночных наблюдений и измерений; когда в таблицы и протоколы вносились "поправки", угодные лицу, не заинтересованному в истине, и т.д. Ясно, что статистическая обработка таких "данных" выдаст некий результат, но стоит ли обвинять статистику в его качестве?

3. Следующий, более сложный случай - добросовестное заблуждение относительно статистичности серии наблюдений, когда этого на самом деле нет. Тутубалин [36] приводит много примеров, когда статистической обработке подвергались данные, вообще не имеющие статистической природы. Иногда этот факт трудно проверить, особенно при небольших объемах выборки. Этому моменту следует уделять специальное внимание при организации экспериментов, а при малейшем сомнении не полагаться на "паспортные" характеристики качества процедуры, относиться к результатам обработки как к ориентировочным данным, как к поводу для дальнейших исследований.

4. Утрата ожидаемого качества статистических решений может быть следствием использования процедуры, не соответствующей действительному уровню априорной информации (например, применение дисперсионного анализа к негауссовым данным). Если "действительный" уровень априорной информации не очень ясен, то полезно обработать данные несколькими способами. Расхождение выводов должно стать сигналом к поиску причин расхождения. Следует остерегаться принимать решение "голосованием процедур", так как опасность нетранзитивности (см. § 7.5) - свойство голосования вообще, а не только голосования людей.

Нарушение априорных предположений может происходить довольно неожиданным образом. Поучителен пример из реальной жизни: непараметрическая процедура классификации была "обучена" эффективно распознавать нефтяные слои от водяных по геофизическим данным одного месторождения. Внедренная на другом, соседнем месторождении нефти программа стала давать слишком большие вероятности ошибок распознавания: непараметричность процедуры не означает, что на выборках из другого распределения она сохранит те же свойства.

5. Причиной необоснованных претензий к статистике может служить неверная содержательная интерпретация правильного статистического вывода. Например, одно из английских статистических исследований прошлого века установило, что здоровье людей, носящих котелки, значительно лучше здоровья мужчин в кепках; в другом случае оказалось, что главным'фактором, влияющим на различие в урожайности клевера в соседних деревнях, было... число старых дев. Таким (и подобным) правильным выводам можно придать совершенно разный смысл. (Кстати, оказалось, что английские старые девы держат по нескольку кошек, а мыши любят разорять гнезда шмелей - основных опылителей клевера.) Действительные причины обнаруженной статистической связи могут оставаться неясными. Например, новосибирские статистики установили очень сильную статистическую связь между урожайностью зерна в данном году и яйценоскостью кур. Интерпретация зависимостей лежит вне статистики, и за неправильную интерпретацию нельзя осуждать саму статистику.

Несмотря на все предосторожности, как и в любой практической деятельности, в статистической практике возможны нарушения правил безопасности и неизбежны связанные с этим потери. Видимо, именно поэтому юристы одной крупной фирмы, поставляющей очень развитую программную систему для статистического анализа на ЭВМ, включили в договор о поставке этой системы пункт о том, что "фирма не несет ответственности за возможный ущерб от использования данной системы".

Подведем итог: Неопределенность в статистических задачах имеет "двухэтажную" природу. Наблюдаемые данные подчинены конкретному вероятностному распределению, и связанная с этим распределением неопределенность образует "первый этаж". Имеется и другая неопределенность относительно того, какое же именно распределение из некоторого множества порождало экспериментальные данные. Эту-то "вторую" неопределенность и требуется снять, осуществив выбор на данном множестве альтернативных распределений. Алгоритм такого выбора самого распределения (или значения некоторого его признака) называется статистической процедурой. Использование статистических выводов сопряжено с определенными сложностями, "ловушками", опасностями, риском; требуется знание и соблюдение правил "статистической безопасности".