Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Tema_3_rasshir.doc
Скачиваний:
5
Добавлен:
15.08.2019
Размер:
396.8 Кб
Скачать

Тема 3. Сводка и группировка данных статистического наблюдения

3.1. Сводка статистических данных 1

3.2. Группировка статистических данных. 2

3.3. Ряды распределения 13

3.4. Многомерные статистические группировки 19

3.5. Прогнозирование структуры 26

3.6. Статистические таблицы 28

3.1. Сводка статистических данных

Собранный в процессе статистического наблюдения материал нуждается в определенной обработке, сведении разрозненных данных воедино. Научно организованная обработка материалов наблюдения (по заранее разработанной программе), включающая в себя кроме обязательного контроля собранных данных систематизацию, группировку материалов, составление таблиц, получение итогов и производных показателей (средних, относительных величин), называется в статистике сводкой. Сводка представляет второй этап статистического исследования, цель которого – получение на основе сведенных материалов обобщающих статистических показателей, отражающих сущность социально-экономических явлений и определенные статистические закономерности.

Статистическая сводка осуществляется по программе, которая должна разрабатываться еще до сбора статистических данных, практически одновременно с составлением плана и программы статистического наблюдения. Программа сводки включает определение:

- групп и подгрупп;

- системы показателей;

- видов таблиц.

Все эти вопросы, разумеется, следует решать не механически, а с учетом цели исследования и особенностей изучаемой совокупности. Выделение тех или иных групп должно быть обоснованным, неформальным. Кроме итоговых и групповых показателей сводка дает основу для последующего анализа и выявления различного рода закономерностей.

По технике или способу выполнения сводка может быть ручной либо механизированной. Ручная сводка применяется в основном для небольших массивов данных и начинается с шифровки статистических формуляров (карточек). Затем формуляры определенным образом группируются и подсчитываются их число и другие показатели. При механизированной сводке и больших объемах совокупности исходные данные могут сразу заноситься на машиночитаемые носители информации и полностью обрабатываться на ЭВМ.

3.2. Группировка статистических данных.

Изучаемые статистикой массовые явления и процессы протекают в множествах элементов (единиц) некоторого вида (статистических совокупностях). Определить совокупность – значит определить входящие в нее элементы. Под структурой совокупности понимается характер распределения единиц совокупности для каждого признака и характер соотношения признаков между собой.

В простейших случаях массовое явление протекает в единицах одной совокупности. В более сложных – в рамках общей совокупности существуют качественно различные части, без разграничения которых невозможно разобраться в массовом явлении. Так, если единицей совокупности отрасли «Энергетика» является предприятие, то в составе предприятия действуют совокупности рабочих, станков. Состав совокупности по таким качественно различным частям, играющим разную роль в исследуемом массовом явлении, представляет одну из важнейших характеристик строения этой совокупности.

Каждая совокупность должна объединять качественно однородные элементы, играющие в рассматриваемом массовом явлении вполне определенную роль. Игнорирование качественных различий ведет к грубым ошибкам. Вряд ли оправданно оперирование такими показателями, как душевой доход для населения страны в целом, в составе которого имеются и нищие, и олигархи.

В изучении массового явления прежде всего необходимо определить действующие в нем различные качественно однородные совокупности. Это первое основное требование научной методологии в статистике. Выделение и анализ однородных частных совокупностей выполняют с помощью методов группировки.

Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку или объединение отдельных единиц совокупности в группы, однородные по каким-либо признакам.

Устойчивое разграничение объектов называется классификацией. Классификация – это определенный стандарт, в котором каждая атрибутивная запись может быть отнесена лишь к одной группе или подгруппе. Классификация основывается на самых существенных признаках, которые меняются очень мало (например, классификация отраслей народного хозяйства, классификация основных фондов и т. д.). Таким образом, классификация – это узаконенная, общепринятая, нормативная группировка. Объекты, попавшие в процессе классификации в одну классификационную категорию, могут подвергнуться дальнейшей классификации.

Статистические группировки и классификации преследуют цели выделения качественно однородных совокупностей, изучения структуры совокупности, исследования существующих зависимостей. Каждой из этих целей соответствует особый вид группировки:

  • типологическая,

  • структурная,

  • аналитическая (факторная).

Типологическая группировка решает задачу выявления и характеристики социально-экономических типов (частных совокупностей), структурная позволяет описать составные части совокупности или строение типов, а также проанализировать структурные сдвиги, аналитическая (факторная) группировка – оценить связи между взаимодействующими признаками.

В зависимости от числа положенных в основание группировки признаков различают простые и многомерные группировки.

Простой называется группировка, выполненная по одному признаку. Метод простой (одномерной) группировки основывается на двух категориях – группировочном признаке и интервале.

Группированный признак – это признак, по которому происходит объединение отдельных единиц совокупности в однородные группы. Классификация и группировка должны производиться на основании вполне объективных и легко распознаваемых признаков. При этом признаки могут носить как атрибутивный, так и количественный характер. В ряде случаев классификация, которая представляется чисто качественной, в конечном итоге оказывается основанной на количественном признаке. Такова, например, классификация предприятий и организаций по видам деятельности. Поскольку одно и то же предприятие выпускает продукцию разных видов, статистика решает этот вопрос по количественному преобладанию того или иного вида.

Интервал очерчивает количественные границы групп. Как правило, он представляет промежуток между максимальными и минимальными значениями признака в группе. Интервалы бывают:

  • равные, когда разность между максимальным и минимальным значениями в каждом из интервалов одинакова;

  • неравные, когда, ширина интервала постепенно увеличивается, а верхний интервал часто не закрывается вовсе;

  • открытые – имеется либо верхняя, либо нижняя граница;

  • закрытые – имеются и нижняя, и верхняя границы.

Среди простых группировок особо выделяются ряды распределения. Ряд распределения – это группировка, в которой для характеристики групп (упорядоченно расположенных по значению признака) применяется один показатель – численность группы. Ряды, построенные по атрибутивному признаку, называются атрибутивными рядами распределения. Ряды распределения, построенные по количественному признаку, называются вариационными рядами.

Многомерная группировка производится по двум и более признакам. Частным случаем многомерной группировки является комбинационная группировка, базирующаяся на двух и более признаках, взятых во взаимосвязи, в комбинации.

По отношениям между признаками выделяют:

- иерархические группировки, выполняемые по двум и более признакам, при этом значения второго признака определяются областью значений первого (например, классификация отраслей промышленности по подотраслям);

- неиерархические группировки строятся, когда строгой зависимости значений второго признака от первого не существует.

По очередности обработки информации группировки бывают первичные (составленные на основе первичных данных) и вторичные, являющиеся результатом перегруппировки ранее уже сгруппированного материала. Перегруппировка может потребоваться либо при изменении интервалов признака в группах – укрупнение или разделение ранее созданных групп, либо для определения интервалов изменения признака в новых группах, создаваемых под заданные удельные веса или численности единиц.

В соответствии с временным критерием различают статические группировки, дающие характеристику совокупности на определенный момент времени или за определенный период, и динамические – группировки, показывающие переходы единиц из одних групп в другие (а также вход и выход из совокупности). Количества таких переходов, рисующие внутреннюю динамику совокупности, удобно расположить в «шахматную» таблицу, которую называют матрицей перехода (часто ее называют также миграционной или матрицей мобильности).

При проведении группировки решается ряд методологических вопросов:

1) выбор группировочного признака;

2) определение числа групп и величины интервалов;

3) при наличии нескольких группировочных признаков описание того, как они комбинируются между собой;

4) установление показателей, которыми должны характеризоваться группы, т. е. сказуемого группировки.

Основной целью типологической группировки является выделение качественно однородных совокупностей и исследование структуры совокупности как таковой. Задача выделения типов из общей совокупности решается сравнительно просто только в тех случаях, когда различия очевидны и устойчивы и могут быть описаны одним или несколькими признаками. Однако на практике это бывает редко. Принадлежность группируемых объектов к общей совокупности обычно обусловливает появление у них некоторых общих особенностей, маскирующих различия между типами. Кроме того, недостаточно четкое обособление отдельных типов друг от друга в действительности, множественность признаков описания объекта и ряд других обстоятельств еще более усложняют группировку. Вот почему задача проведения качественной типологической группировки совокупности является весьма сложной.

Есть два способа формирования типологических групп:

1) способ последовательных разбиений, заключающийся в формировании групп, все объекты которых имеют одинаковые значения классификационных признаков;

2) способ многомерной классификации, когда объекты, образующие группы, могут иметь различные значения классификационных признаков.

Первый способ исторически более ранний. Он базируется на типичном для него методе комбинационной группировки, при которой формирование групп производится путем последовательного разбиения сначала всей совокупности по одному признаку, затем полученных частей – по другому и т. д. (причем строго соблюдается принцип иерархии групп), а также на многошаговом методе последовательных разбиений совокупности.

Способ многомерной классификации, когда группы формируются на основе близости объектов одновременно по большому числу признаков, получил широкое применение с разработкой методов распознавания образов и появлением ЭВМ.

При использовании методов комбинационной группировки классификация осуществляется путем последовательного логического деления совокупности по отдельным признакам. При этом предусматривается следующая очередность этапов:

1) наметка типов;

2) выбор группировочного признака (признаков);

3) определение числа групп и величины интервалов;

4) сведение выделенных групп в типы;

5) характеристика типов с помощью системы показателей.

Наличие типов выясняется с помощью теоретического, качественного анализа. Обычно первоначально намечают столько типов, сколько их может быть в данной совокупности теоретически.

Типологическая группировка. Для типологической группировки ни выбор признаков группировки, ни установление их интервалов (в случае группировки по количественному признаку) не являются произвольными.

При выборе группировочного признака необходимо учитывать два условия. Во-первых, типологическая группировка должна выполняться только по существенным признакам. Теоретически можно охватить все существенные признаки, однако, при таком подходе получается излишнее дробление совокупности. Группы оказываются малы по объему и не пригодны для статистического анализа. Поэтому рекомендуется проводить группировку по двум–трем главным признакам, взятым в комбинации. Во-вторых, при необходимости для характеристики разных типов выбираются различные признаки, т. е. осуществляется специализация признака. Например, для выделения типов сельскохозяйственных предприятий по размеру в качестве группировочного будет выступать признак отраслевой принадлежности (растениеводство или животноводство), далее же для растениеводства количественным признаком будут посевная площадь и число комбайнов, а для животноводства – поголовье крупного рогатого скота и производство молока.

На различных этапах формирования типологической группировки число групп неодинаково. На предварительном этапе количество комбинированных групп определяется произведением K1· К2·...·Кт, где Кi –число градаций i-го группировочного признака. По её завершению число групп соответствует фактическому числу выделенных типов.

В случае количественного группировочного признака необходимо определять величину интервалов. Интервалы задают критические точки перехода одного качественного состояния в другое. При построении типологической группировки интервалы чаще всего неравные и специализированные. Специализация интервалов означает, что разным значениям одного признака соответствуют разные значения другого.

Полученные комбинированные группы в итоге чисто технически объединяются в типы. Критерием оптимальности выполненной типологической группировки может служить величина межгрупповой дисперсии интересующего исследователя признака и ее доля (удельный вес) в общей дисперсии. Если результат не устраивает исследователя, то группировку следует повторить, задавая для каждого признака иное, меньшее или большее число групп.

Если группировка оказывается приемлемой, то разрабатывается система показателей для характеристики типов. Система, в частности, обязательно должна включать характеристики численности объектов или наблюдений по каждому типу (веса либо частоты) и интегральные показатели – средние величины, удельные веса, соотношения, показатели динамики и т. д.

Для построения типов на основе комбинационной группировки при ограниченности совокупности и наличия более четырех качественных признаков, предположительно вызывающих неоднородность, можно использовать модификацию метода комбинационной группировки – многошаговый метод последовательных разбиений совокупности. Он базируется на анализе коэффициентов вариации качественных признаков. Коэффициент вариации характеризует способность признака различать отдельные элементы совокупности. Расчет значений коэффициента вариации качественных признаков Q(X) основан на сопоставлении числа различных пар событий:

где L – число градаций признака X; ni – число объектов, принимающих i-градацию признака (i = 1,2,..., l); N – число объектов совокупности :

Коэффициент вариации качественных признаков реагирует только на характер распределения объектов по градациям признака. Q(X) принимает максимальное значение 1 при равенстве частот градаций признака и считается, равным 0 при одной градации, т.е. когда вся совокупность сосредоточена в одной группе. Малое значение коэффициента вариации свидетельствует о том, что распределение объектов на группы по данному признаку крайне неравномерно. Если нет запрета на исключение, и связь его с моделируемым показателем слаба, признак с малым значением коэффициента вариации может вообще не рассматриваться.

Группы формируют следующим образом. По каждому признаку вычисляется Q(X), и разбиение совокупности производится по тому признаку, который имеет максимальное значение. Если таких признаков оказывается несколько, то выбор среди них осуществляется по содержательному смыслу. Результатом будут группы первого шага разбиения. Далее полученные группы рассматриваются как самостоятельные совокупности, и описанная выше процедура повторяется на следующем шаге. Такое деление производится до тех пор, пока однородность объектов не достигнет желаемой степени либо число элементов в группах не станет меньше заданного.

Практика исследований показала, что логические принципы, лежащие в основе комбинационной группировки, не всегда легко применимы к эмпирическому материалу. Это обусловило разработку новых нетрадиционных методик. Сущность новых подходов к многомерной классификации, состоит в том, что классификация объектов производится не последовательно по отдельным признакам, а по большому числу признаков одновременно. Этот фиксированный набор признаков образует так называемое пространство признаков, а каждому признаку придается смысл координаты. Если задано m существенных признаков совокупности, то любой объект рассматривается как точка в m-мерном пространстве признаков, и задача классификации сводится к выделению сгущений объектов в этом пространстве. Группы (типы, классы) всегда формируются на основании близости (подобия) объектов по комплексу признаков. Для распознавания групп используются различные алгоритмы, от эвристического направления в кластерном анализе, до методов факторного, компонентного, дискриминантного анализа.

Подходы к формированию групп, применяемые в многомерной группировке, лучше, чем комбинационные, согласуются со сложившимся представлением о существовании естественных типов объектов, близких по совокупности признаков. В самом деле, при комбинационной группировке объект, отклоняющийся по одному, единственному признаку от нормы, характерной для группы, будет автоматически из нее исключен. Более того, если этот признак используется на первом шаге группировки, то объект может легко попасть в группу, очень далекую от той, с которой он в действительности имеет наибольшее сходство. Группы, получаемые при комбинационной группировке, представляют секторы пространства признаков. Границы между секторами параллельны осям пространства, а жестко заданные интервалы признаков часто разрушают реально существующие классы. Этот основной недостаток делает комбинационные группировки не всегда эффективными для выделения типов объектов по комплексу признаков, так как с добавлением каждого нового признака опасность разрушения объективно существующих однородных групп возрастает.

Главное преимущество методов многомерной группировки заключается в том, что они позволяют с той или иной степенью приближения выделить реально существующие в признаковом пространстве скопления точек – объектов. Это связано с одновременной группировкой по большому числу признаков и использованием сложных поверхностей в качестве границ. Если реализация методов последовательного разбиения возможна и без применения вычислительной техники, то методы многомерной группировки обычно весьма трудоемки и требуют использования ЭВМ, поэтому их часто называют методами автоматической классификации. При автоматической классификации исследователь лишь указывает направление поиска заданием набора признаков, имеющих отношение к цели классификации, и выбором метода анализа.

Выбор способа классификации во многом определяется характером признаков, составляющих описание объекта. Если преобладают качественные признаки, их не очень много и априори известно, что они неравнозначны с точки зрения цели классификации, то целесообразнее использовать способ последовательного разбиения. При наличии большого числа примерно равнозначных признаков, особенно если это признаки количественные, а вопрос иерархии признаков и групп не столь важен, следует ориентироваться на многомерную классификацию.

Структурная группировка применяется для изучения строения совокупности, характеристики ее структуры и структурных сдвигов. Наличие и количественные соотношения различных групп представляют важную черту совокупности. Анализ структуры совокупности позволяет сделать определенные выводы, важные для практической деятельности. Например, обследование доходов населения и распределение населения на разные группы доходности дает информацию для принятия конкретных решений в социальной сфере.

Структурные группировки строятся либо на основе ранее проведенной типологической группировки, либо на основе первичных данных. Структурная группировка по первичной статистической информации предполагает решение таких методологических вопросов, как:

1) выбор группировочного признака; в качестве такового может выступать как существенный, так и несущественный признак;

2) определение числа групп и величины интервала. Здесь необходимо учитывать несколько условий;

а) число групп детерминируется уровнем колеблемости группировочного признака: чем значительнее вариация признака, тем больше при прочих равных условиях должно быть групп;

б) число групп должно отражать реальную структуру совокупности;

в) не допускается выделение пустых групп. Если проблема пустых групп все же возникает, при проведении структурных группировок используют неравные интервалы.

Для нахождения числа групп используется формула

,

где N – количество элементов совокупности.

В случае равных интервалов величина интервала может быть определена

3) определение системы показателей для характеристики групп. Обязательным показателем является численность групп. Он может быть представлен либо частотой (количеством единиц в каждой группе), либо частотностью (удельным весом каждой группы).

Аналитическая (факторная) группировка предназначена для оценки степени связи между факторным и результативным признаком. Она позволяет выявить наличие, направление, тесноту связи. Методологическими вопросами построения факторной группировки являются:

1. выбор группировочного признака;

2. определение числа групп и величины интервала;

3. выбор системы показателей для характеристики групп.

Если типологическая группировка преследует цель разграничения однородных совокупностей в соответствие с их объективной качественной природой, то для аналитической группировки такого объективного критерия нет. Поэтому в качестве группировочного чаще всего принимают факторный признак, выделенный на основе предварительного содержательного анализа.

Интервалы в аналитической группировке берутся преимущественно равные либо равно наполненные (группы с приблизительно одинаковой частотой). Величина интервала рассчитывается так же, как при построении структурной группировки. Среди показателей, характеризующих группы, обязательным является среднее значение результативного показателя по каждой группе. Теснота связи оценивается сравнением вариации этих средних в группах с общей дисперсией результативного показателя. Эмпирический индекс детерминации находится в интервале от 0 до 1 и определяется как

.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]