- •Оглавление
- •К читателю
- •Введение
- •Глава I сущность, структура и задачи аналитики
- •1 Понятие и сущность аналитики
- •2 Структура, задачи и место аналитики в современных интеллектуальных технологиях
- •3 Аналитика как средство добывания знаний
- •4 Понятийный аппарат аналитики
- •Глава II. Методология аналитической деятельности
- •1 Основные методологические системы
- •1.1 Философия, логика, семиотика
- •1.2 Естественнонаучные концепции
- •1.3 Кибернетика и системный анализ
- •1.4 Гуманитарные науки
- •1.5 Теоретические основы системного анализа как методологического ядра аналитики
- •2 Методы формализации предметной области и моделирование
- •2.1 Понятие сложной системы
- •2.2 Моделирование как метод познания
- •2.3 Вербальные или понятийные модели
- •2.4 Логико-лингвистические и семиотические модели и представления
- •2.5 Логические модели
- •2.6 Статистические, теоретико-вероятностные модели
- •2.7 Аналитические модели
- •2.8 Имитационные модели
- •3 Аналитика как интерфейс между теорией и практикой
- •3.1 Методы активизации мышления
- •3.2 Методы структурирования информации
- •3.3 Методы обработки и анализа числовых данных
- •Глава III принципы организации аналитической деятельности
- •1 Ситуация в россии, проблемы и задачи информационно-аналитического обеспечения
- •2 Задачи и определение иао
- •3 Субъект информационно-аналитической работы
- •3.1 Противоречия в сфере организации иар
- •3.2 Организационные формы субъектов иар
- •3.3 Серединный путь?
- •3.4 Системы, управляемые потоком событий
- •4 Целеполагание в организационных системах
- •4.1 Базовые утверждения и определения
- •4.2 Модель иерархии целей
- •5 Методики социальных технологий а.А. Шияна
- •5.1 Теоретические основы социальных технологий
- •5.2 Человек (эксперт-аналитик) как двухкомпонентный абстрактный информационный автомат
- •6 Требования к организации информационно-аналитического обеспечения управленческой деятельности
- •7. Разработка организационной структуры аналитического подразделения
- •Глава IV аналитические технологии
- •1 Противоречия в сфере развития средств автоматизации и информатизации иар
- •2 Технологический цикл иар
- •3 Первичная обработка имеющихся данных и анализ модельной информации
- •4 Поиск, отбор и экспресс-анализ данных
- •5 Работа с источниками текстовой информации
- •5.1 Неструктурированные текстовые данные
- •5.2 Структурированные текстовые данные
- •5.3 Взаимные преобразования различных типов данных
- •5.4 Анализ информативности источников
- •5.5 Проблема активной фильтрации сообщений
- •6 Аналитический режим потребления информации
- •6.1 Акт коммуникации и ошибки интерпретации
- •6.2 Управление элементами модели мира
- •6.3 Режимы восприятия информации
- •7 Атрибуция сообщений
- •8 Выявление неполноты, противоречивости и недостоверности информации
- •8.1 Логико-лингвистические средства анализа достоверности
- •8.2 Нетекстовые модели как инструмент верификации данных
- •9 Средства автоматизации иар
- •9.1 Средства сбора информации
- •9.2 Средства хранения данных
- •9.3 Экспертные системы
- •9.4 Системы искусственного интеллекта и интеллектуального анализа данных
- •9.5 Средства структурирования и визуализации данных. Электронные помощники аналитика
- •9.6 Системы гибридного интеллекта
- •9.7 Средства снижения размерности массива измерений
- •9.8 Инструментальные средства представления и доведения результатов иар
- •Глава V аналитика как взвешенный подход к разработке и оцениванию управленческих решений
- •1 Проблема принятия решений
- •2 Разработка и анализ управленческих решений
- •2.1 Образование, карьера и лицо, принимающее решение
- •2.2 Концептуализация проблемы
- •2.3 Оценивание эффективности
- •2.4 Технологии прогнозирования
- •3 Методика выявления неформальных управляющих структур (центров сил) в регионах россии
- •3.1 Проблемы и противоречия в регионах россии как следствие борьбы центров сил
- •3.2 Введение в концептуальную систему
- •3.3 Методики проведения исследований
- •3.4 Экспертная система социально-экономического мониторинга, основанная на концепции центров сил
- •3.5 Показатели и алгоритмы выявления центров сил
- •Заключение
- •Список литературы
- •Вариант организации процесса перспективного планирования на примере плана usaf-2025
- •Примеры применения методик социальных технологий
- •Пример аналитического разбора сообщения
- •Глоссарий
- •Список используемых сокращений
9.7 Средства снижения размерности массива измерений
Класс инструментальных средств поддержки процессов анализа данных — это весьма пестрый по составу класс, объединенный одним свойством входящих в него средств: все они направлены на преодоление проблемы большой размерности. Сущность проблемы заключается в том, что человек, хотя и устроен как мощнейшая система анализа и обработки данных, но система эта обладает недостаточно мощной подсистемой сбора данных. Она, эта подсистема сбора данных, обладает относительно низким разрешением, инерционна и обладает множеством иных недостатков. Отсюда это стремление к созданию все новых инструментальных средств, расширяющих возможности органов чувств... Но, как только очередная проблема этого сорта решена, так сразу появляются проблемы коммуникации с очередным созданным инструментом, преодоления избыточности массива измерений, обеспечения избирательности и иные — то есть, все то, что порождено высокой размерностью массива измерений. Эти проблемы порождены «неинтеллектуальностью» инструментария сбора данных.
В результате человек концентрируется на изыскании путей снижения размерности, выделения именно тех фрагментов данных, которые представляют интерес для решения конкретной проблемы, сведения процесса анализа к оцениванию минимального числа интегральных показателей, позволяющих с заданной точностью решать те или иные задачи.
В принципе, весь инструментарий ИАР может быть по ряду признаков отнесен именно к этому классу, однако лучше всего в этот класс вписываются средства статистической, корреляционной и спектральной обработки результатов наблюдений. Наибольшее распространение получили здесь программные комплексы статистической обработки данных.
Для пользователей, имеющих дело со сверхбольшими объемами данных, характеризующихся высоким уровнем формализации представления, серьезной альтернативы использованию этого класса программного обеспечения пока нет. Сегодня на этом рынке лидируют профессиональные западные пакеты статистической обработки и среды математического моделирования. В большинстве из них реализованы специальные высокоуровневые языки программирования для реализации собственных алгоритмов обработки данных. Их разработка осуществляется путем комбинирования готовых подпрограмм, поставляемых с данным программным продуктом в специализированных библиотеках. При этом задача пользователя состоит, главным образом, в исследовании информативности и выделении наиболее информативных признаков функционирования объекта изучения, установлении взаимосвязи между их изменениями и состоянием объекта. Кроме того, пользователям предоставляется возможность разработки собственных процедур с применением встроенных средств разработки или внешних сред программирования.
Существует условное деление инструментальных средств этого класса на профессиональные (специализированные) и универсальные, не имеющие привязки к отрасли исследований программные продукты. Безусловно, специализированные программные продукты за счет адаптации к классу решаемых задач обладают большей эффективностью при решении прикладных задач в заданной области исследований, но при проведении междисциплинарных исследований универсальным средам альтернативы нет. Поэтому на рынке представлены как специализированные системы обработки данных (например, предназначенные для экономических или социологических исследований), так и универсальные системы.
Универсальные пакеты обладают несколько меньшими возможностями. Но, с другой стороны, их стоимость значительно ниже, чем стоимость профессиональных. Универсальные пакеты во многом схожи по составу методов обработки, реализованы по модульному принципу и за счет обращения к процедурам и функциям операционной системы упрощают работу с графикой и интерфейсными элементами. Однако, при приобретении таких систем следует убедиться, что они действительно реализуют требуемые методы и алгоритмы обработки данных.
Существует около тысячи распространяемых на мировом рынке пакетов, решающих в том или ином виде задачи статистического анализа данных, и реализованные для различных операционных систем.
Среди западных универсальных пакетов наиболее известны и выделяются высоким качеством системы SAS (SAS Institute), SYSTAT, SPSS102 (SSPS Inc.), Minitab (MiniTab Inc.), Statgraphics (Manugistics, Inc.), Statistica (StatSoft, Inc.). Все эти продукты реализованы на высоко профессиональном уровне, а их производители активно осваивают все новые и новые «ниши» аналитики, обращаясь к технологиям анализа текстов, интеллектуального анализа данных, операционному анализу и иным отраслям, связанным с анализом данных. Заметим, что в последние годы усиливается тенденция к специализации по отраслям — на базе основной версии выпускаются программные продукты, адаптированные к решению задач в медицине, экономике и т. д.
Особый класс программного обеспечения, представленного на рынке, — это специализированные библиотеки подпрограмм обработки данных, предназначенные для встраивания в прикладные программные продукты, разрабатываемые силами собственных отделов автоматизации организаций, нуждающихся в проведении тех или иных исследований. В этом классе несомненными лидерами являются библиотека численных и статистических методов IMSL (Visual Numerics) и библиотека S-Plus (AT&T Bell Labs), сочетающая в себе как библиотеку подпрограмм, разработанных на объектном языке программирования S, так и интерактивную среду-интерпретатор, которая обеспечивает возможность полноценного графического анализа данных. Кроме того, существует масса других библиотек, в том числе, и бесплатно распространяемых через ГСТК Интернет.
Следует заметить, что в СНГ также интенсивно развивается направление, связанное с разработкой программного обеспечения для статистической обработки данных. К классу полу-универсальных могут быть отнесены российские пакеты STADIA103 (НПО «Информатика и компьютеры»), ОЛИМП (ЗАО «CPS») и белорусский пакет РОСТАН (Белорусский Государственный Университет). Имеются примеры создания специализированных систем для решения задач классификации и снижения размерности, например: КЛАСС-МАСТЕР (Научное изд-во «ТВП»), КВАЗАР (ИММ УрО РАН), PALMODA (ВЦ РАН), Stat-Media (ЗАО «Полихимэкс») и иные. Кроме того, на рынке представлены и статистические экспертные системы, например, СТАТЭКС (РМ и ПК, Казахстан).
Довольно интересный класс программного обеспечения представляют собой системы, ориентированные на решение задач снижения размерности, классификации и анализа данных. Эти системы используют комбинацию методов статистической и нейросетевой104 обработки данных. В этой области столь эффективно работают такие гиганты, как SAS (серия продуктов SAS Data and Text Mining) и SPSS, создающие программные продукты, сочетающие мощь статистических методов обработки с методами нейрокомпьютинга. Среди наших разработчиков следует отметить ВЦ РАН (ЛОРЕГ), ЗАО «Megaputer» (система PolyAnalyst), НПИЦ «Микросистемы» (система TextAnalyst), фирму «Контекст» (пакет «ДА-система») и «MediaLingua» (система Классификатор).
Следует помнить, что сами по себе результаты статистической обработки и статистические данные, без модели их интерпретации, лишены какой бы то ни было ценности. Для аналитика крайне важны не просто некоторые наборы величин (рождаемость ли, стоимость ли «потребительской корзины»), а их динамика во времени, модель эталона или нормы, используемая при проведении анализа, точность и тому подобные сведения.
Рассмотренные ранее классы систем, увы, не могут претендовать на роль аналитика, поскольку таковых моделей не продуцируют. Все эти системы, сколь бы совершенны они ни были, продуцируют лишь данные. Заметим, что человечество уже приблизилось к тому рубежу, когда встала проблема измерения стоимости информационных продуктов типа «знание» и «модель». Именно они определяют функциональные возможности программного обеспечения, стоимость которого на самом деле относительно легко исчислить. Для продуктов же, именуемых этими словами, такой расчет произвести крайне сложно — проблем здесь существует масса: от определения авторства (особенно при коллективной научной деятельности) — до определения реального социально полезного времени, затраченного на синтез нового знания.
В настоящее время на Западе ведутся активные философские (и не только философские, но и с привлечением менеджеров в области научных изысканий и информационного бизнеса) дискуссии на эту тему, вызванные изменением экономических и, прежде всего, социальных приоритетов. Тема, сама по себе, интересная, но она лежит за рамками обсуждаемой в этой книге тематики.