Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Высоцкий Новокрещенов Мет и мет научн иссл 16_0...doc
Скачиваний:
32
Добавлен:
07.05.2019
Размер:
1.64 Mб
Скачать

3.4. Общие методы анализа информации

К общим методам анализа информации относят наиболее общие, то есть применяемые в различных конкретных науках методы обработки данных. К ним относятся методы анализа текстов (контент-анализ), методы группировок и классификаций, включая кластерный анализ, методы обобщения измерений (расчеты средних и дисперсий), методы выявления наличия зависимостей (дисперсионный анализ), методы выявление видов зависимостей (корреляционые, регрессионные методы и методы проверки гипотез о видах и параметрах распределений случайных величин), методы выявления скрытых факторов (факторный анализ). Остановимся на некоторых наиболее часто используемых.

Контент-анализ

Контент-анализ (англ. content analysis) – анализ связи содержания информации с ее целевым назначением.

Контент-анализ может быть применен для изучения совокупности любых текстов как письменных, так и устных. Основные процедуры контент-анализа связаны с переводом качественной информации на язык количественной информации. С этой целью выделяют два типа единиц - смысловые или качественные единицы анализа и единицы счета или количественные единицы. Единицами анализа могут быть темы, идеи, оценки, суждения, символы, термины, понятия и др. При этом смысловые единицы (единицы анализа) выделяются на основе гипотез исследования, а единицы количественной информации - с учетом характера источника и поставленных задач.

В качестве единиц счета могут использоваться частота употребления тех или иных понятий, терминов, слов, темы и т.п., физическая протяженность, площадь текстов, число строк, длительность трансляции и т.п.

При использовании контент-анализа обязательна проверка результатов на надежность. Для этого используется либо экспертная оценка, либо проверка с помощью других методов (опрос, интервью), либо данные сопоставляются с данными результатов других исследований.

Методы группировок и классификаций Методы группировок

Любая задача многомерного анализа так или иначе сводится к нахождению группировки (группи­руются или объекты, или признаки)41.

Формализа­ция задачи (то есть ее математическая постановка) в большой сте­пени зависит от того, в каком виде представлена исходная статис­тическая информация. Как правило, исходная информация для соци­ально-экономического исследования задается или матрицей типа "объект-признак", или матрицей связи "объект-объект", причем при переходе от матрицы "объект-признак" к матрице "объект-объект" возникает вопрос о выборе меры близости объектов. При нахождении группировок в одних случаях имеются некоторые априорные сведения о существовании групп (классов) объектов или признаков, которые требуется найти в результате анализа данных, в других случаях ничего не известно ни о количестве классов, ни об их составе.

Задачи многомерного анализа, или задачи группировки объек­тов, усложнены часто тем, что у исследователя нет четкого предс­тавления, какие признаки следует брать в качестве классифицирую­щих. В связи с этим на первом этапе анализа возникает вопрос или о выборе информативной системы признаков, или о нахождении фак­торных конструкций в системе признаков. Выбор системы информа­тивных признаков осуществляется в режиме диалога "человек-ЭВМ" чаще всего на основе анализа корреляционной матрицы или с ис­пользованием методов факторного анализа (метода главных компонент) и для решения этой проблемы существует целый ряд методов [1, 14, 20, 21, 22, 23, 33, 34. 36, 36, 39, 41]. К ним наряду с методом главных компонент и факторным анализом следует также от­нести канонический анализ, метод корреляционных плеяд, метод экстремальной группировки параметров, методы таксономии и дру­гие. Эти методы можно разделить на две группы. Методы первой группы характеризуются уменьшением размерности признакового пространства за счет замены набора исходных признаков некоторыми их комбинациями. При использовании методов первой группы в мно­гомерном анализе социально-экономической информации значительную сложность для исследователя представляет интерпретация формально полученных "искусственных" признаков в построенном признаковом пространстве. Методы второй группы позволяют выделить связанные группы признаков на основе их взаимосвязи. При этом в качестве представителей групп выбирают сами признаки, с помощью которых и интерпретируют полученные результаты группировки. В качестве примеров первого и второго типа приведем некоторые известные ме­тоды.

Метод главных компонент [12, 14, 39] является представите­лем первой группы методов.

Пусть - число объектов, - число признаков, тогда норми­рованное значение -ro признака, полученное из исходной инфор­мации типа "объект-признак", необходимо представить в виде

где - -я главная компонента;

- вес -й компоненты в -й переменной (факторная нагрузка -гo фактора).

Начальными данными метода является корреляционная или кова­риационная матрица, которую строят по исходной информации. Из­вестно [39], что полная дисперсия -го признака

где - доля полной дисперсии -ro признака, относящаяся к -й главной компоненте ( ).

Тогда

,

где - номер признака ( );

- номер главной компоненты ( ),

есть полный вклад -й главной компоненты в дисперсию всех признаков и та доля общей дисперсии, которую рассматриваемая главная компонента объясняет. Хотя число подученных главных ком­понент равно числу исходных признаков, только небольшое число главных компонент имеет существенные вклады в объясняемую дис­персию. Главные компоненты, имеющие достаточно малые вклады, исключают из рассмотрения. Число наиболее весомых компонент сос­тавляет обычно не больше чем четвертую часть от числа рассмат­риваемых признаков [12]. Тогда объясняемая дисперсия

,

где - число "весомых" главных компонент ( ).

Известно [12, 39], что факторные нагрузки есть коэффициен­ты корреляции между фактором и исходным признаком .

Для применения методов факторного анализа к качественным данным, измеренным на ранговых и номинальных шкалах, разработан [19, 37] аппарат качественного факторного анализа, который осно­ван на идее аппроксимации матрицы связи линейной комбинацией матриц определенной блочной структуры, каждая из которых интерп­ретируется как некоторый качественный фактор.

В статистических исследованиях "проверенным" методом агре­гирования исходных признаков является алгоритм экстремальной группировки параметров [2, З]. По этому алгоритму формировалось, например, признаковое пространство для построения типологии де­мографических статусов поселений [15, 16, 30]. В основу алгорит­ма экстремальной группировки параметров для группировки этих признаков и выделения факторов положен подход, связанный с экстремизацией некоторого функционала, зависящего как от способа группировки, так и от выбора факторов. Разбиение, экстремирующее этот функционал, и представляет экстремальную группировку приз­наков. В качестве примера рассмотрим один из алгоритмов экстре­мальной группировки параметров, предложенный в [2].

Пусть коэффициент корреляции (или ковариации) двух случай­ных величин Х и Y есть X,Y . Дисперсия случайной величины Х X,X X2.

Пусть множество параметров (признаков) раз­бито на непересекающиеся группы и заданы случай­ные величины , такие, что

,

которые называются факторами.

Рассматривается функционал

.

Алгоритм экстремальной группировки параметров решает задачу максимизации этого функционала как по разбиению параметров на множества , так и по выбору случайных величин .

Максимизация соответствует требованию такого разбиения параметров, когда в одну группу попадают наиболее "близкие" меж­ду собой параметры. Действительно, при максимизации функционала для каждого фиксированного набора случайных величин в -ю группу будут попадать такие параметры, которые наиболее "близки" к ; в то же время среди всех возможных наборов слу­чайных величин будет отбираться такой набор, то каждая из величин в среднем наиболее "близка" ко всем пара­метрам из своей группы.

Если группы параметров заданы, то оптималь­ный набор факторов можно найти в результате незави­симой максимизации каждого слагаемого функционала :

При фиксированном множестве параметров фактор , удов­летворяющий записанному выше условию, находится по формуле

, (1)

где - компоненты собственного вектора матрицы Rl = {( )}, , соответствующего ее наибольшему собственному числу. С другой стороны, если величины заданы, то разбие­ние параметров на группы , обеспечивающее максимум , должно удовлетворять условию:

для каждого

,

так как в противном случае можно было бы увеличить, перебро­сив параметр из группы в ту группу , для которой это со­отношение неверно.

Следующий итерационный алгоритм, предложенный в [2], опре­деляет одновременно группы и факторы . Идея его заключается в следующем.

Пусть на -м шаге итерации построено разбиение . Для каждой группы параметров строят факторы по формуле (1) и новое, -е разбиение по правилу:

относится к группе , если

. (2)

В том случае, когда существуют два или более факторов и та­кой параметр , что для этих факторов и этого параметра в фор­муле (2) имеет место равенство, параметр относится к одной из соответствующих групп произвольно. Для найденных тем или иным способом факторов их содержательная интерпретация осуществляется с помощью одномерных группировок совокупности всех изучаемых объектов по каждому из имеющихся факторов. Формирование группи­ровок проводится в диалоге человека с ЭВМ и контролируется исс­ледователем. При этом полезно строить гистограммы значений объ­ектов по выбранному фактору, а затем уже проводить группировку тем или иным методом с учетом интерпретируемости полученных ре­зультатов [30].

К первой группе методов, заменяющих набор рассматриваемых признаков некоторыми их комбинациями, можно отнести и каноничес­кий анализ.

Каноническая корреляция [4, 18, 31, 38] - это корреляция между линейными функциями двух множеств случайных величин, кото­рая характеризуется максимально возможными значениями коэффици­ентов корреляции. В теории канонической корреляции случайные ве­личины X1, X2, ..., Xs и Xs+1, Xs+2, …, Xs+t линейно преобразу­ются в так называемые канонические случайные величины Y1, Y2, ..., Ys и Ys+1, Ys+2, …, Ys+t, такие, что:

1) все величины Y имеют нулевое математическое ожидание и единичную дисперсию;

2) внутри каждого из двух множеств величины Y некоррелированы;

3) любая величина Y из первого множества коррелирована лишь с одной величиной из второго множества;

4) ненулевые коэффициенты корреляции между величинами Y из разных множеств имеют максимальное значение. В многомерном статистическом анализе с помощью метода канонической корреляции осуществляется переход к новой системе координат, в которой кор­реляция между X1, X2, ..., Xs и Xs+1, Xs+2, …, Xs+t проявляется наиболее отчетливо. В результате анализа канонической корреляции может оказаться, что взаимосвязь между двумя множествами пол­ностью описывается корреляцией между несколькими каноническими случайными величинами.

Каноническую корреляцию целесообразно использовать при комплексном анализе социально-экономических блоков в исследова­нии развития региона.

Примером методов второй группы может быть метод корреляци­онных плеяд [1]. Плеяда - группа признаков, в которой корреляци­онная связь (внутриплеядная связь) достаточно велика, а связь между признаками из разных групп (межплеядная связь) мала. Мера корреляционной связи может быть выбрана по-разному. Например, как сумма модулей коэффициентов корреляции между признаками од­ной группы. По корреляционной матрице строят граф, который разрыванием "малых" связей преобразуют в несколько подграфов. В каждом подграфе выбирают признаки (один или несколько), с помощью которых описывают полученные плеяды признаков.

Ввиду простоты этот метод часто применяют на ранних стадиях анализа.

Анализ и группировку исходных признаков как количественных, так и качественных можно также осуществить, применив метод глав­ных кластеров [24] к транспонированной исходной матрице "объ­ект-признак".

Выявляя группы признаков и выбирая "представителей" этих групп, решают задачу нахождения системы информативных признаков для дальнейшего исследования изучаемого явления или процесса.

После выбора информативной системы признаков следующей задачей в процессе анализа социально-экономической информации является задача группировки объектов. В большинстве случаев - это задача типологизации или классификации объектов изучаемой совокупности.

По способу построения группировок все методы классификации (как признаков, так и объектов) делятся на алгоритмические и вариационные [21]. Алгоритмический метод использует некоторые эвристические соображения исследователя, на основании которых и формируются классы. Основное требование в этом подходе к формируемым классам - их компактность. Под компактной группой в некотором пространстве понимают такое множество точек этого пространства, для которого средняя внутренняя связь больше, чем сред­няя связь вовне (или среднее внутреннее расстояние, наоборот, меньше, чем среднее расстояние вовне) [1, 21]. Успешное применение этих алгоритмов предполагает наличие у исследователя некоторых априорных сведений о реально существующих группах изучаемой совокупности. Эвристические алгоритмы, как правило, линейны, то есть, число операций в них пропорционально числу классифицируемых объектов.

Примером эвристического алгоритма, применяемого при форми­ровании классов объектов, служит известный алгоритм Мак Кина (или метод центров) [44]. Рассмотрим этот алгоритм.

Исходной информацией служит матрица "объект-признак" или матрица связи "объект-объект".

Рассмотрим случай, когда исходной является таблица "объ­ект-признак", в которой на ( )-м месте записано значение -го признака, соответствующее -му объекту, - . Объект изучаемой совокупности представля­ется в таблице в виде строки значений признаков на этом объекте или в виде точки в -мерном признаковом пространстве.

Первый шаг алгоритма - выбор в пространстве признаков точек (объектов), число которых равно числу требуемых классов. Эти объекты задаются из содержательных или из формальных соображе­ний. Они также могут быть выбраны случайным образом.

Блок "Класс" распределяет объекты - по классам так, чтобы расстояние от объекта до соответствующего ему центра было мини­мальным. Для количественных признаков может быть выбрано евкли­дово расстояние в .

Блок "Центр" работает после блока "Класс". Этот блок перес­читывает центры классов. Для каждого класса новые координаты его центра в пространстве признаков получаются как координаты центра тяжести каждого класса. Теперь дадим формальное описание алго­ритма:

1°. Задаются точек в пространстве призна­ков, которые объявляются центрами классов.

2°. Объект относится к -му классу, , если при достигает минимума - расстояние между объектом и центром -го класса на -й итерации.

3°. Пересчитываются центры классов.

,

где - вектор значений признаков на -м объекте;

- мощность (число объектов) класса .

Пункты 2° и 3° выполняются для всех . Если мас­сив объектов исчерпан, а последовательность центров не стабили­зировалась, то описанный процесс повторяется с самого начала, причем в качестве исходных центров выбираются центры, подучивши­еся на последней итерации.

Метод Мак Кина с исходной матрицей "объект-объект" рассмот­рен в [21] и заключается в следующем. Центры выбираются по ис­ходной матрице связи "объект-объект" следующим образом. Выбира­ется максимальный по модулю отрицательный элемент . Объекты с номерами и объявляются центрами - это самые "далекие" в смысле меры связи объекты. Затем выбирается элемент , такой, что | | максимальна, причем .

После шагов будем иметь центров . В качестве центра берется объект с таким номером , что отрицательны, а | | максимальна по всем таким .

Процесс построения центров заканчивается, если исчерпаны все объекты с указанным свойством.

Блок "Класс" в этой схеме работает следующим образом. Для каждого объекта производится сравнение по величине связей с каждым из центров . Объект относится к классу , если

,

то есть объект относится к самому "близкому" в смысле меры свя­зи центру.

Блок "центр" в качестве нового центра -го класса вы­бирает объект этого класса, такой, что

.

Алгоритм заканчивает работу, когда процесс стабилизируется.

Для безмашинного («ручного») счета может быть использован метод вроцлавской таксономии [21], который был впервые применен при классификации воеводств Польши по демографическим данным. Этот метод по своей идее похож на метод корреляционных плеяд: строят граф (дерево максимальной длины), а затем его разрезает по реб­рам с минимальными связями. Имеется множество алгоритмов, напри­мер, "Краб" в [13], в которых "разрезание" по ребрам осуществля­ется по критерию, представленному некоторой функцией многих пе­ременных, сконструированной из эвристических соображений. Алго­ритмы, основанные на дереве максимальной длины, применяют на стадии предварительного анализа.

Вариационный подход к решению задачи конструирования груп­пировки в [21, 22, 23] предполагает наличие некоторого критерия качества группировки. Этот критерий, как правило, выводится фор­мально из модели данных. Он или оценивает степень близости груп­пировки к некоторой "идеальной", или минимизирует "погрешность" в аппроксимационных моделях данных. В первом случае учитывается не только требование компактности групп, но и представление об их количестве и их наполненности. Так как сама сконструированная группировка в этом случае в силу эквивалентности качественного признака и разбиения (группировки) есть реализация некоторого латентного признака, порожденного свойством многомерности дан­ных, то по сути критерий качества группировки отражает степень "аппроксимации" всех признаков в совокупности одним сконструиро­ванным качественным признаком.

Во втором случае [19, 23, 25, 37] критерий качества выво­дится из самой модели данных, в которой предполагается, что матрица связи "порождена" одним или несколькими качественными факторами. Это формализовано в модели [19, 25, 37] тем, что матрицу связи "объект-объект" аппроксимируют линейной комбинацией матриц связи, вид каждой из которых алгоритмически определяется свойс­твами качественного фактора, ей соответствующего. Достигается это тем, что при конструировании качественного фактора оценива­ется степень учета исходной информации, в том числе и доля разброса исходных данных, участвующих в получении решения [2, 3, 12, 14, l6].

Примером вариационного подхода может служить группировка признаков методом экстремальной группировки параметров, а также все алгоритмы и методы в матричном подходе к анализу данных [2, 21, 22, 23].

Наиболее хорошо зарекомендовавшим себя подходом в решении задач многомерной группировки является вариационный, исходной информацией для которого служит матрица связи "объект-объект", а сама группировка осуществляется в терминах связей между объекта­ми.

В качестве примера формализованной в рамках этого подхода задачи нахождения группировки может быть приведена следующая постановка задачи из [21, 22, 23].

Пусть а = - матрица связей между объектами. Най­ти разбиение множества элементов на заранее не заданное число непересекающихся классов . которое максимизирует величину вида

суммы внутренних связей в за вычетом определенного порогово­го значения .

При этом считают [23], что диагональные элементы . Оказывается [22], что если оптимально в смысле критерия , то:

а) сумма внутренних связей

в каждом классе неотрицательна;

б) суммарная связь

между любыми двумя классами и неположительна.

Схема алгоритмов локальной оптимизации включает в себя три алгоритма [23] и начинается с тривиального разбиения множества объектов на одноэлементных классов. Алгоритм "Объединение" на каждом шаге объединяет такие классы и , связи между кото­рыми максимальны до тех пор, пока все величины не станут отрицательными. Дальнейшие объединения не нужны, так как они уменьшают значение критерия.

Полученное разбиение улучшается с помощью алгоритма "Пере­мещение", после чего проводится проверка: удовлетворяет ли полу­ченное разбиение необходимым условиям оптимальности а) и б).

После проверки те классы, которые не удовлетворяют условию а), рассыпаются на одноэлементные подклассы, после чего опять применяется объединение с последующим перемещением - и так до тех пор, пока условия а) и б) не окажутся выполненными.

В [22] показано, что количество классов разбиения определя­ется только величиной порога, который часто из содержательных педставлений о конкретной задаче легче задать интуитивно, чем более формальную величину числа классов. В связи с работой в итеративном режиме "человек-ЭВМ" при построении классификации появились и сформулированы [21] требования к методам, с помощью которых они осуществляются: универсальность, интерпретируемость результатов, адаптируемость.