- •Глава 9. Изучение динамики комплекса взаимосвязанных признаков
- •9.1. Динамика жестко связанной системы признаков (показателей)
- •Вектор валового сбора
- •9.2. Агрегирование трендов и колебаний по совокупности объектов
- •9.2.1. Тренды объемных признаков
- •9.2.2. Тренды качественных признаков
- •9.2.3. Агрегирование показателей колеблемости
- •9.3. Корреляция между временными рядами: сущность, ограничения
- •9.4. Методы измерения корреляции между колебаниями признаков
- •Корреляция урожайности картофеля с его себестоимостью совхоза им. Ленина Волосовского района Ленинградской области
- •Корреляция отклонений от средних отклонений
- •9.5. Корреляция с учетом лага и циклов
- •Корреляция отклонений от тренда с неизвестным заранее лагом
- •9.6. Понятие о динамике комплекса статистически взаимосвязанных признаков
9.3. Корреляция между временными рядами: сущность, ограничения
Предполагается, что читатель знаком с теорией корреляции в пространственных совокупностях и ее показателями, которые здесь используются. Корреляция временных рядов применяется:
• взамен пространственной корреляции, ввиду отсутствия однородной совокупности или данных о таковой. Например, при изучении связи между средним душевым доходом в стране и душевым потреблением картофеля. Совокупность стран явно неоднородна, не везде потребляется картофель, единственная возможность измерить связь - по данным той же страны за ряд лет;
• при изучении взаимодействующих процессов, например при изучении связи между урожайностью и колебаниями солнечной активности. Изучать эту связь по пространственной совокупности вообще невозможно: для всех регионов на Земле показатели солнечной активности одинаковы;
• там, где следует применять пространственную корреляцию. Например, дипломник проходил практику в отдельном колхозе, на предприятии, а не в районе. У него нет данных по совокупности хозяйств о внесении удобрений и об урожайности, он берет данные колхоза за 7-11 лет и по ним измеряет связь урожайности с дозой удобрений, получая, как правило, низкий коэффициент корреляции или даже отрицательный, потому что урожайность разных лет колеблется вовсе не из-за различия доз удобрения, а совсем из-за других причин. Это просто суррогат настоящей пространственной корреляции, к которому прибегать не рекомендуется.
Корреляция между двумя (для простоты возьмем два) признаками означает, что если величина одного из них больше средней по совокупности, то и величина другого в основном тоже больше его средней (прямая связь) или же в основном меньше его средней (обратная связь). Но если оба признака имеют одинаково направленные тренды, то уровни лет после середины периода, как правило, больше средних величин или, при трендах к снижению, оба признака имеют уровни меньше средних. Выходит, что в динамике между любыми признаками, имеющими тенденцию изменения, всегда есть связь: либо прямая (оба тренда в одном направлении), либо обратная (тренды в разных направлениях). Результат абсурдный. В любой развитой стране в 1970-1990 гг. рос уровень производства компьютеров. Одновременно росло число инфицированных ВИЧ-инфекцией и больных СПИД. Но при очень высокой корреляции уровней обоих рядов никакой реальной связи процессов нет. Это один из видов ложной корреляции. Как же отличить ложную корреляцию от истинной? Конечно, прежде всего, как и при изучении связей в пространственной совокупности, нужно обосновать связь по существу, объяснить ее причинный механизм. Эта задача не статистическая, поэтому в данном учебнике не рассматривается. Она решается специалистом в той сфере знаний, которая изучает объект, процесс, - агрономом, инженером, экономистом, социологом, биохимиком, астрономом и т.д. Без причинного обоснования лучше не начинать измерение связи в динамике.
Но даже и после такого обоснования остается открытым вопрос: при наличии одинаково направленных трендов двух причинно-связанных признаков не преувеличится ли теснота связи за счет трендов? Если, например, в стране растет производство и применение минеральных удобрений, растет и урожайность сельскохозяйственных культур, но последняя растет не только по причине увеличения применения удобрений, а также и за счет других факторов - селекции новых сортов, мелиорации, орошения, механизации производства, роста экономической заинтересованности фермеров и др. А при коррелировании уровней урожайности и доз удобрений за 20-25 лет прогресс всех факторов урожайности будет отнесен на дозу удобрений. Получится коэффициент детерминации, превышающий 50 или даже 70%, и где гарантия, что к истинной корреляции и здесь не примешана ложная? Такой гарантии нет.
Могут возразить: «А разве не может так случиться, что и в пространственной совокупности предприятий, у тех из них, которые вносят большие дозы минеральных удобрений, одновременно и семена лучше, и сельскохозяйственные машины, и кадры более подготовлены, и экономика сильнее?» Да, это возможно, но именно лишь возможно, как возможно и несовпадение факторов, влияющих на урожайность. А параллельная тенденция динамики факторов во времени - это не просто возможность, а в 90% стран и регионов - достоверный факт. Так что примесь ложной корреляции в пространственных совокупностях намного меньше, чем при коррелировании временных рядов. И, следовательно, если есть возможность изучать, измерять, моделировать связь результативного признака с его факторами не по рядам динамики, а в пространственной совокупности, это обязательно следует делать.
Проблема ложной корреляции почти целиком снимается, если причинная связь обоснована не столько между тенденциями динамики, сколько между колебаниями факторного и результативного признаков. Например, колебания урожайности во влагонедостаточных регионах, например, таких, как Оренбургская область, причинно связаны не с какой-либо тенденцией изменения суммы осадков, а с ее колебаниями в отдельные годы. К тенденции же роста урожайности осадки никакого отношения (причинной связи) не имеют. Снимается ложная корреляция тем, что колебания других факторов, влияющих на урожайность, - экономических, организационных - не связаны или слабо связаны с колебаниями осадков. Тенденции факторов связаны часто, колебания - почти никогда. Поэтому связь между колебаниями одного фактора с результативным показателем (его колебаниями) почти всегда свободна от ложной корреляции, наведенной другими факторами.
В последующих разделах данной главы в основном будут рассматриваться корреляция между колебаниями признаков, а также методики ее измерения и моделирования. Что же касается измерения связи между тенденциями, между самими уровнями временных рядов, включающих тенденцию, а не только колебания, то эта проблема не может считаться решенной. Некоторые указания читатели учебника могут найти в разделе о смешанных прогностических моделях (гл. 10). Излагаемые здесь методики решают только ограниченный класс задач - измерение связи между колебаниями факторного (факторных) признака и колебаниями результативного признака.
Строго говоря, это жесткое ограничение относится и к пространственной корреляции в том смысле, что и в ней измеряется связь вариации результативного признака с вариацией фактора. Например, за счет вариации дозы минеральных удобрений объясняется 38% вариации урожайности пшеницы между хозяйствами области (r 2 = 0,38), а не 38% уровня урожайности, как иногда неверно считают.