Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Иформационные технологии анализа данных в MS Office.doc
Скачиваний:
264
Добавлен:
16.12.2013
Размер:
2.7 Mб
Скачать

100

МИНИСТЕРСТВО ОБЩЕГО И ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ

САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ЭКОНОМИКИ И ФИНАНСОВ

КАФЕДРА ЭКОНОМИЧЕСКОЙ ИНФОРМАТИКИ И АСУ

ИЛЬИНА О.П.

Информационные технологии анализа данных в microsoft office

УЧЕБНОЕ ПОСОБИЕ

ИЗДАТЕЛЬСТВО

САНКТ–ПЕТЕРБУРГСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА ЭКОНОМИКИ И ФИНАНСОВ

2000

Информационные технологии анализа данных в Microsoft Office. – СПб.: Изд–во СПбГУЭ Ф, 2000. – 89с.

Учебное пособие посвящено рассмотрению информационных технологий для аналитической обработки данных в среде Microsoft Office.

Пособие отражает основные разделы курса «Информационные системы и технологии в экономике», соответствует учебной программе и предназначено для студентов очного и заочного обучения факультета «Финансы и кредит». Все информационные технологии проиллюстрированы необходимыми примерами.

Составитель: канд. экон. наук, доц. Ильина О.П.

Рецензент:

© Издательство Санкт-Петербургского государственного университета экономики и финансов, 2000

Введение

Современные информационные технологии анализа данных широко используются в крупномасштабных корпоративных информационных системах (КИС) крупномасштабных предприятий и организаций. КИС включают подсистемы, построенные на основе концепций систем поддержки и принятия решений (System for Support of Decision – SSD).

В состав КИС входят проблемно–ориентированные хранилища данных – Data Ware House (DW), обеспечивающие централизованное хранение данных, источниками которых являются различные базы данных систем оперативной обработки данных (On–Line Transaction Processing, OLTP), используемых для автоматизации бизнес–процессов корпоративной информационной системы, а также внешние источники. Обычно хранилища данных создаются путем конвертирования и совместной обработки источников данных, хранимых под управлением различных СУБД на разнородных аппаратных платформах.

Помещаемые в DW данные должны отвечать требованиям полноты, целостности, достоверности и актуальности для целей анализа. Применительно к хранилищам данных, имеющих большой объем хранимых данных, используются специфические информационные технологии хранения данных.

Структура хранилища данных представлена на рис. 1.

Перенос и трансформация данных

Метаданные (репозиторий объектов)

Рисунок 1

Метаданные содержат всю необходимую информацию о структуре, размещении и способах преобразования источников данных, обеспечивают взаимодействие компонентов хранилища данных. Метаданные имеют, как правило, объектное представление.

В КИС широко применяются технологии OLAP (On–Line Analytical Processing) – совокупность средств многомерного анализа данных хранилищ. Создаваемые OLAP–приложения должны обеспечивать быстрый анализ разделяемой многомерной информации. Разработан специальный тест FASMI (Fast Analysis Sheared Multidimensional Information) для OLAP–приложений1, которые должны обеспечивать:

  • Многомерность представления данных.

  • Санкционированный доступ пользователей к данным для целей анализа.

  • Получение необходимой для анализа информации.

  • Эффективность выполнения анализа информации по всем аспектам.

  • Выполнение стандартных видов обработки числового и статистического анализа данных.

Данные хранилища для целей анализа представляются в виде так называемых OLAP–кубов OLAP–куб – многомерные данные, имеющие определенный набор «измерений» – классификационных признаков. На пересечении «измерений» представлены данные («меры»), количественно характеризующие различные бизнес–процессы. Куб можно «разрезать» вдоль различных осей, получить сводную или детализированную информацию, выполнить структурирование и анализ информации, вычисление статистических итогов и др. Размерность куба (число измерителей) – произвольная.

Многомерность в OLAP–приложениях обеспечивается на трех уровнях:

  1. Представление данных – визуализация многомерных данных для пользователей, обеспечение манипулирования структурой данных.

  2. Язык для формулировки многомерных запросов.

  3. Хранение данных для эффективного выполнения многомерных запросов.

Первые два уровня представлены во всех OLAP–средствах. Третий уровень наиболее часто реализуется средствами реляционных СУБД, а многомерные запросы транслируются в запросы на языке SQL (Structured Query Language). К представителям OLAP–средств относятся многомерные серверные СУБД (Microsoft OLAP Server, Oracle Express Server и др.), OLAP–клиенты в составе различных программных средств, в том числе Microsoft Office 2000.

В КИС широко применяются и информационные технологии интеллектуального анализа данных – Data Mining (DM), основанные на методах количественного анализа данных, поиске функциональных и логических закономерностей, построении моделей и правил прогнозирования новой информации и т.п.

Процесс "получение знания" (knowledge discovery) с помощью информационных технологий DM представлен на рис. 2.

Выборка данных

Очистка и обработка данных

Трансформация

Обогащение

Представление данных

ЗНАНИЕ

Data Mining

Модели

Критерии оценки

Рисунок 2

В базе данных хранятся все «исторические» данные об объектах. Обычно такая информация не оптимизирована для нужд решаемой задачи. Для этого делается выборка данных, их «очистка» и предварительная обработка (поиск и исправление ошибок, проверка согласованности данных и т.п.). Данные обычно преобразовываются в иной формат, «обогащаются» (добавление дополнительной информации для увеличения точности и ценности результатов проводимого анализа).

Собственно исследование данных – DM выполняется с помощью методов, моделей, которые применяются для описания зависимостей и отношений в данных, прогнозирования дальнейшего их развития и т.п. Информационные технологии DM широко используют различные математические и эвристические модели, экспертные оценки и формализованные критерии оценки этих моделей.

Представление данных – это этап, на котором модель приобретает вид, удобный для дальнейшего использования с помощью средств визуализации и манипулирования данными, объяснения и интерпретации результатов для получения нового знания.

Информационные технологии DM выявляют закономерности и выводят правила, которые можно использовать для принятия решений и прогнозирования их последствий. На пересечении искусственного интеллекта, статистики и теории баз данных в рамках DM возникло новое направление KDD (Knowledge Discovery in Databases) – обнаружение знаний в базах данных), которое актуально также и применительно к хранилищам данных в корпоративных информационных системах.

В процессе анализа данных выявляются стандартные закономерности:

  1. Ассоциация– нахождение постоянных составляющих (трендов), которые можно использовать для объяснения событий (например, выбор товаров и услуг, определение уровней запасов, схем складирования и др.).

  2. Последовательность– установление временных серий последовательных действий (транзакций), правил выполнения отдельных транзакций.

  3. Классификация– выявление признаков, характеризующих группу объектов, распределение объектов по группам для моделирования поведения объектов, прогнозирования значений свойств объектов и др.

  4. Кластеризация– распределение по группам или сегментам. В отличие от классификации, кластеры формируются в процессе анализа.

  5. Прогнозирование– предсказания будущих значений непрерывно изменяющихся переменных и др.

Сложилась следующая классификация программных средств анализа:

  • Предметно-ориентированные аналитические системы.

Наиболее типичный представитель – системы анализа финансовых рынков, построенные на основе методов прогноза динамики цен, различных эмпирических моделях динамики рынка. Эти системы относительно дешевы (до 500 долл.), но большинство их ориентировано на западный рынок, например, MetaStock(компанияEquisInternational),SuperCharts(OmegaResearch),CandlestickForecaster(IPTC),WallStreetMoney(MarketArts).

  • Нейронные сети.

Используется архитектура многослойного персептрона: нейрон верхнего уровня соединен по входу с выходами нейронов нижних уровней. На нейроны нижнего слоя подаются входные параметры, на основе которых вырабатываются решения. На выходе нейрона самого верхнего слоя вырабатывается некоторое значение – реакция нейронной сети на введенные значения входных параметров. Нейронная сеть предварительно «обучается» на известных значениях входных параметров и правильных ответах, в результате чего подбираются веса межнейронных связей, обеспечивающие наибольшую близость ответов к известным правильным ответам. В России используются нейросетевые системы, стоимость которых в пределах 1500-8000 долл.: BrainMaker(CSS),NeuroShell(WardSystemsGroup),OWL(HyperLogic).

  • Системы рассуждений (case based reasoning – CBR) на основе аналогичных случаев.

Системы CBRнаходят в прошлом близкие аналоги и выбирают тот же ответ, который был для них правильным. Эти системы не создают каких-либо моделей или правил, а обобщают предыдущий опыт:KateTools(Acknosoft, Франция),PatternRecognitionWorkbench(Unica, США).

  • Деревья решений (decision trees).

Применяются для решения задач классификации, создают иерархическую структуру правил типа "ЕСЛИ... ТО..." для распределения множества случаев по отдельным классам, подклассам, видам и т.п.. Стоимость этих систем варьируется от 10 до 100 тыс. долл.: С5.0 (RuleQuest, Австралия), Clementine(IntegralSolutions, Великобритания),SIPINA(UniversityofLyon, Франция),IDIS(InformationDiscovery, США).

  • Нелинейные регрессионные методы.

Поиск зависимости целевых переменных от остальных в форме функционала определенного вида. Наиболее традиционный метод группового учета атрибутов реализован в системе NeuroShell компании WardSystemsGroup.

  • Специализированные программные средства методо–ориентированной направленности – табл. 1.

Таблица 1

Math Works Matlab версии 5.3.1.

Анализ и визуализация данных, численные и символьные вычисления, имитационное моделирование.

Специализированные приложения:

  • Statistics Toolbox – для статистического анализа данных;

  • Optimization Toolbox – для оптимизационных расчетов;

  • Neural Network Toolbox – для проектирования и моделирования систем с помощью нейронных сетей;

  • System Identification Toolbox – для построения модели системы на основе входных и выходных данных;

  • Financial Toolbox – для ввода, обработки, вывода финансовых данных, финансового анализа и прогноза,

  • Financial Time Series Toolbox – для анализа данных финансовых рынков методом временных рядов и др.

  • Maple 6.0

Встроенные функции для различных аналитических расчетов с использованием методов преобразования и упрощения алгебраических выражений, линейной алгебры, статистических методов, методов финансовых расчетов и анализа и др.

  • Statistica 5.5

Статистический анализ данных, поддержка классических методов статистического анализа данных, многомерная линейная и нелинейная регрессия, прогнозирование временных рядов, факторный, кластерный, дискриминантный и дисперсионный анализ; деревья классификации, анализ надежности, анализ выживаемости, методы добычи данных и др.

  • Mathematica 4.0.

Аналитические и численные расчеты, набор специализированных приложений:

  • DataBase Access Kit – интерфейс с реляционными базами данных;

  • Finance Essentials – проектирование и анализ финансовых систем;

  • Mathematica Link for Excel – расширение возможностей Microsoft Excel и др.

Как правило, приложения Microsoft Office наиболее часто выступают в качестве «клиентов» OLAPилиDM. Это обеспечивается средствами интеграции. Компонентная модель (ComponentObjectModel,COM) приложений Microsoft Office позволяет интегрировать в них функции обработки данных различных программ в виде дополнительных пользовательских команд или специальных надстроек. В свою очередь, надстройки Microsoft Office, имеющие расширения .dll или .exe, могут использоваться различными системами программирования (Visual Basic, Visual C++, Visual J++ и др.)

Средствами пакета программ Microsoft Office 2000 можно создавать комплексные информационные технологии для поддержки и принятия решений, включая получение и конвертирование внешних данных, количественный анализ данных, статистическую обработку данных, публикацию результатов анализа и др.

На базе информационной технологии OLE 2.0 (Object Linking and Embedded) создаются «составные» или «компонентные» приложения Microsoft Office, включающие объекты, в наилучшей степени отвечающие требованиям анализа данных. Например, приложение содержит: таблицу БД ACCESS, ячейки электронной таблицы EXCEL, фрагмент текстового документа WORD и презентацию Power Point.

Объекты – фрагменты документов, созданных в различных программах, в том числе и Microsoft Office, могут либо «внедряться», становясь неотъемлемой частью приложения, либо участвовать только в «связях», обладая автономностью от составного приложения. Примерами объектов являются диапазоны ячеек электронных таблиц, фрагменты текстовых документов, графика различного вида, таблицы БД и т.п. Простейшие объекты – элементы управления Active X (флажок, кнопка, поле ввода, надпись и т.п.). Эти элементы создается с помощью панели инструментов Элементы управления и используется для выбора параметров, запуска макросов и сценариев. Работу элемента управления можно запрограммировать с помощью макросов, создаваемых в Microsoft Visual Basic для приложений, или сценариев, написанных в редакторе сценариев Microsoft Visual Script. Объект интеграции – собственно данные может находиться и в оперативной памяти компьютера (в буфере обмена).

По отношению к объекту приложения делятся на клиенты и серверы. Клиенты используют объекты, которые создаются серверами. Для редактирования объектов всегда используются программы, в которых они были созданы. В COM–приложениях между компонентами поддерживаются стандартные интерфейсы.