Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Зайцев Применение методов Дата Мининг для поддержки процессов управления ИТ-услугами.Учебное пособие 2009

.pdf
Скачиваний:
72
Добавлен:
17.08.2013
Размер:
2.04 Mб
Скачать

Рис. 6.3. Факторы, учитывающиеся при анализе данных

2. Выбор программного продукта для анализа данных. Анало-

гично предыдущим примерам. В виду того, что данные находятся в СУБД MS SQL Server 2005, и программный продукт

MS SQL Server Analysis Services поддерживает метод поиска ассо-

циативных правил, он и был выбран для анализа данных.

3. Подготовка данных. Для работы алгоритма поиска ассоциа-

тивных правил, входящих в MS SQL Server Analysis Services, необ-

ходимо использовать линейное представление сущности. Таким образом, для представления инцидентов в данном виде были созданы представления и функции на языке T-SQL в СУБД

MS SQL Server 2005.

4.Анализ данных. После подготовки данных был создан проект

всреде MS Visual Studio 2005, с помощью которого был проведен анализ данных в представлении методами поиска ассоциативных правил и построения деревьев решений. В конечном анализе данных использовались параметры алгоритма, представленные на рис. 6.4.

Рис. 6.4. Параметры алгоритма поиска ассоциативных правил

Результаты анализа данных методом поиска ассоциативных правил. В результате анализа данных методом поиска ассоциативных правил после установки разумных значений параметров поддержки и достоверности было получено 368 правил, из которых было выделено 83 неочевидных правила (типичные примеры представлены в табл. 6.1).

92

Таблица 6.1

Примеры неочевидных правил нарушения крайнего срока устранения инцидента

Pнарушения

Правило

крайнего срока

ЧАС КОНЦА РАБОТЫ НАД ИНЦИДЕНТОМ >= 17, ДЕНЬ НЕДЕЛИ

 

0,703

КОНЦА РАБОТЫ НАД ИНЦИДЕНТОМ = 2 - 3

 

ЧАС КОНЦА РАБОТЫ НАД ИНЦИДЕНТОМ >= 17, ЧИСЛО КОНЦА

0,658

РАБОТЫ НАД ИНЦИДЕНТОМ = 7 – 14

 

ОТДЕЛ ЗАЯВИТЕЛЯ = АТЦ, СЕРВИС = 01.02. Автоматизирован-

0,56

ное рабочее место (ПК + монитор)

 

КЕМ ЗАРЕГИСТРИРОВАНО = ДИТ Петрова Анна Викторовна,

0,5

МЕСТОПОЛОЖЕНИЕ ЗАЯВИТЕЛЯ = АВК-ШЕРЕМЕТЬЕВО2

 

РГ = ГИ06.02 Техобслуживание периферии, ОТДЕЛ ЗАЯВИТЕЛЯ

0,489

= АТЦ

 

ЧАС РЕГИСТРАЦИИ >= 17, СЕРВИС = 06.02 Стойки регистрации

0,442

в А/П МАШ, РГ = ГИ09.1 Дежурная смена Help Desk

0,437

ОТДЕЛ ЗАЯВИТЕЛЯ = АТЦ, ЧАС РЕГИСТРАЦИИ = 10 - 13

 

ДЕНЬ НЕДЕЛИ РЕГИСТРАЦИИ >= 3, ЧАС РЕГИСТРАЦИИ = 10 -

0,43

13

 

ДЕНЬ НЕДЕЛИ НАЧАЛА РАБОТЫ НАД ИНЦИДЕНТОМ >= 6, ЧАС

0,427

НАЧАЛА РАБОТЫ НАД ИНЦИДЕНТОМ = 12 - 17

 

ДЕНЬ НЕДЕЛИ НАЧАЛА РАБОТЫ НАД ИНЦИДЕНТОМ >= 6,

0,421

ДОМЕН = MSK, ОТДЕЛ НАЗНАЧЕННОГО СОТРУДНИКА = ДИТ

0,419

МЕСТОПОЛОЖЕНИЕ ЗАЯВИТЕЛЯ = АНГАР-1-(АДМ-КОРПУС)

 

ОТДЕЛ ЗАЯВИТЕЛЯ = АТЦ, ИМЯ ОС = Microsoft Windows XP,

0,417

ДОМЕН = MSK

 

ЧАС РЕГИСТРАЦИИ = 13 - 17, ДЕНЬ НЕДЕЛИ НАЧАЛА РАБОТЫ

0,416

НАД ИНЦИДЕНТОМ = 3-7

 

ЧАС РЕГИСТРАЦИИ >= 17, СЕРВИС = 06.02 Стойки регистрации

 

в А/П МАШ, МЕСТОПОЛОЖЕНИЕ ЗАЯВИТЕЛЯ = АВК-

0,415

ШЕРЕМЕТЬЕВО2, РГ = ГИ09.1 Дежурная смена Help Desk

 

ЧАС НАЧАЛА РАБОТЫ НАД ИНЦИДЕНТОМ = 9 – 12, СЕРВИС =

 

06.02 Стойки регистрации в А/П МАШ, РГ = ГИ09.1 Дежурная

0,41

смена Help Desk

 

ОТДЕЛ ЗАЯВИТЕЛЯ = АТЦ, ДЕНЬ НЕДЕЛИ НАЧАЛА РАБОТЫ

0,407

НАД ИНЦИДЕНТОМ = 4 - 6

0,401

ОТДЕЛ ЗАЯВИТЕЛЯ = АТЦ, IP2ND = 172.16., ВЕРСИЯ ОС = 5

Выводы по результатам практического применения. Результа-

ты алгоритма деревьев решений намного меньше поддаются воспри- ятиючеловекомиз-забольшегочислаусловийвлевойчастиправил.

Выбор алгоритма обнаружения правил в данных может существенно повлиять на результат анализа. Возможное отличие в результатах связано с особенностью реализации каждого из описанных

93

алгоритмов и не является ошибкой одного из них. В этой связи имеет смысл рекомендовать их совместное применение и использование дополнительных экспертных знаний для выбора более адекватного подхода для каждой конкретной модели.

В конкретных двух случаях анализа, описанных выше, выбор метода зависит от дополнительных условий на поставленную задачу:

если выявлением скрытых знаний необходимо решить задачу классификации (например, какие совокупности значений параметров заявки или наряда гарантируют, что у них не будут нарушены сроки выполнения) заявок или нарядов, то целесообразно применять метод деревьев решений;

если выявлением скрытых знаний необходимо найти наиболее часто встречающиеся шаблоны (например, какие совокупности значений параметров наиболее часто ведут к нарушению сроков выполнения заявок или нарядов), то целесообразно применять метод поиска ассоциативных правил.

Контрольные вопросы

1.В чем отличие технологии Data Mining от других технологий анализа больших объемов данных?

2.Назовите наиболее распространенные методы анализа структурированных данных с использованием технологии Data Mining. Какие типы скрытых зависимостей они выявляют?

3.Почему при создании человеко-машинных информационных систем большое внимание уделяется зависимостям, полученным в виде правил «если, то»?

4.Кратко опишите суть метода построения дерева решений. Какие ограничения имеются у этого метода?

5.В чем суть и различие алгоритмов С4.5 и CART при построениядереварешений? Одинаковыелидеревьябудутпостроены?

6.Кратко опишите суть метода поиска ассоциативных правил. Какие ограничения имеются у этого метода?

7.В чем суть алгоритма Apriori, каковы его основные шаги? Каков смысл свойства анти-монотонности?

8.Что такое обобщенное ассоциативное правило? В чем отличие алгоритма вычисления обобщенных ассоциативных правил от алгоритма Apriori?

94

9.Какие улучшения требуются алгоритму поиска обобщенных ассоциативных правил для обеспечения приемлемых технических характеристик?

10.Какие прогрессивные методы Data Mining предполагается развиватьвближайшеевремядляполученияскрытыхзависимостей?

11.Какие программные продукты, реализующие технологию Data Mining, вам известны? Чем вызвано такое их разнообразие?

12.Какие программные продукты позволяют получать скрытые зависимости в виде правил «если, то»?

13.Приведите примеры инцидентов и проблем, возникающих при управлении ИТ службами организаций или компаний.

14.Почему после выяснения и устранения проблемы необходимо еще некоторое время отслеживать ранее возникавшие инциденты?

15.Как объяснить разное число правил, найденных для одного массива данных методами построения деревьев и поиска ассоциативных зависимостей?

16.Почему вид правил, найденных различными методами при обработке одного и того же набора данных, различается и «условными» и «следственными» частями?

17.Определите главные отличия результатов, получаемых методамипостроениядеревьевипоискаассоциативных зависимостей?

Список литературы

(жирным шрифтом выделена рекомендованная литература)

1.Brand E., Gerritsen R. Naive-Bayes and Nearest Neighbor // DBMS Magazine. – 1998. – №7.

2.Brin S. et al. Dynamic Itemset Counting and Implication Rules for Market Basket Data. // Proc. ACM SIGMOD Int. l Conf. Management of Data, ACM Press, 1997.

3.Cannon D., Wheeldon D. Service Operation. The Stationary Office, 2007.

4.ИТ Сервис менеджмент. Введение (пер. с англ.). Изд-во Van Haren Publishing, 2003. – 225 с.

5.Fayyad, Piatetsky-Shapiro, Smyth, Uthurusamy. Advances in Knowledge Discovery and Data Mining. – AAAI/MIT Press, 1996;

6.Iqbal M., Nieves M. Service Strategy. – The Stationary Office, 2007.

7.Lloyd V., Rudd C. Service Design. – The Stationary Office, 2007.

8.Lacy S., Macfarlane I. Service Transition. – The Stationary Office, 2007.

9.Parsaye K. A Characterization of Data Mining Technologies and Processes Database. // Programming and Design. – 1996. – № 4.

10.Paul S., MacLennan J., Tang Z., Oveson S. Data Mining Tutorial. – Microsoft Press, 2005.

95

11.Piatetsky-Shapiro. Machine, Learning and Data Mining. – Course Notes, 2004.

12.Srikant R., Agrawal R. Mining quantitative association rules in large relational tables //In Proceedings of the ACM SIGMOD Conference on Management of Data. Montreal, Canada, June 1996.

13.Андреев И. Деревья решений – CART математический аппарат. / "Exponenta Pro. Математика в приложениях". - 2004, - №3.

14.Буров К., Обнаружение знаний в хранилищах данных. / Открытые систе-

мы. – 1999. – №5.

15.Гончаров М. Модифицированный древовидный алгоритм Байеса для реше-

ния задач классификации. – Business Data Analytics, 2007.

16.Дюк В., Асеев М.. Поиск if-then правил в данных: проблемы и перспективы, Тр. СПИИРАН // РАН, С.-Петерб. ин-т информатики и автоматизации, 2005.

17.Дюк В. Методология поиска логических закономерностей в предметной области с нечеткой системологией. – Дис. д-ра техн. наук, 2005.

18.Дюк В. Осколки знаний // Экспресс-Электроника. – 2002. – № 6.

19.Дюк В., Самойленко А., Data Mining. Учебный курс. – СПб.: Питер, 2001. – 368 с.

20.Елманова Н. Введение в DataMining. // КомпьютерПресс. – 2003. – №8.

21.Ларин С. Выявление обобщенных ассоциативных правил – описание алгоритма // Exponenta Pro. Математика в приложениях. – 2003. – №3.

22.Ларин С. Использование деревьев решений для оценки кредитоспособности физических лиц // Банковское дело. – 2004. – №3.

23.Ларин С. Применение ассоциативных правил для стимулирования продаж // Exponenta Pro. Математика в приложениях. – 2005. – №6.

24.Леонов В. Краткий обзор методов кластерного анализа // Компьютерра. – 2004. – №9.

25.Паклин Н. Логистическая регрессия и ROC-анализ – математический аппа-

рат. – BaseGroup Labs, 2006.

26.Официальный сайт Intersoft Lab (www.intersoft.ru).

27.Официальный сайт SPSS в РФ (http://www.spss.ru).

28.СтрунковТ. Чтотакоегенетическиеалгоритмы// PC Week RE. – 1999. – №19.

29.Чубукова И. Data Mining. – Бином, 2006. – 384 c.

30.Шахиди А. Введение в анализ ассоциативных правил. – BaseGroup Labs,

2004.

31.Шахиди А. Выявление обобщенных ассоциативных правил – описание алгоритма // Exponenta Pro. Математика в приложениях. – 2003. – №3.

32.Шахиди А. Деревья решений – C4.5 математический аппарат. – BaseGroup Labs, 2007.

33.Шахиди А., Деревья решений – основные принципы работы. – BaseGroup Labs, 2006.

34.Электронный учебник по статистике StatSoft. – М.: StatSoft, 2003, (http://www.statsoft.ru/home/textbook/default.htm.).

35.Безруких М.М., Фарбер Д.А. Психофизиология. Словарь. Психологический лексикон. Энциклопедический словарь в шести томах / Ред.-сост. Л.А. Карпенко. Под общ. ред. А.В. Петровского. – М.: ПЕР СЭ, 2006.

96

Соседние файлы в предмете Интегрированные системы управления и проектирования