Добавил:
Developer Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

Лекции / Лекция №6 часть 1

.pdf
Скачиваний:
13
Добавлен:
04.06.2023
Размер:
1.33 Mб
Скачать

ФЕДЕРАЛЬНОЕ АГЕНТСТВО СВЯЗИ Ордена Трудового Красного Знамени

Федеральное государственное бюджетное образовательное учреждение высшего образования

МОСКОВСКИЙ ТЕХНИЧЕСКИЙ УНИВЕРСИТЕТ СВЯЗИ И ИНФОРМАТИКИ

Технология Data mining

Оглавление

ВВЕДЕНИЕ

1. Задачи Data Mining

1.1. Классификация задач Data Mining

1.2. Задача классификации и регрессии

1.3. Задача поиска ассоциативных правил

1.4. Задача кластеризации

2. Базовые методы Data Mining

3. Процесс Data Mining.

3.1. Этапы Data Mining

4. Сферы применения Data Mining

4.1. Text Mining

4.2. Web Mining

ЗАКЛЮЧЕНИЕ

2

ВВЕДЕНИЕ

Область Data Mining началась с семинара, проведённого Григорием Пятецким-Шапиро в 1989 году. Изначально, задача ставилась следующим образом: имеется достаточно крупная база данных,

предполагается, что в базе данных находятся некие «скрытые

знания», необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных.

Данных (Data Mining) – одна из активно развивающихся областей информационных технологий,

 

предназначенная для выявления полезных знаний из баз данных различной природы. Data Mining -

 

это процесс поддержки принятия решений, основанный на поиске в данных скрытых

 

закономерностей (шаблонов информации) . Data Mining - это процесс обнаружения в сырых

 

данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации

 

знаний, необходимых для принятия решений в различных сферах человеческой деятельности

3

 

1.Задачи Data Mining

1.1.Классификация задач Data Mining

Основу технологии Data Mining составляет концепция шаблонов, представляющих собой закономерности. Различным типам закономерностей, соответствуют определенные задачи Data Mining:

-классификация,

-кластеризация,

-прогнозирование,

-ассоциация,

-визуализация,

-анализ и обнаружение отклонений,

-оценивание,

-анализ связей,

-подведение итогов.

4

1.2. Задача классификации и регрессии

Задача классификации и регрессии решается в два этапа.

На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных.

На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии.

На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).

Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, — это неудовлетворительное качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения

5

1.3. Задача поиска ассоциативных правил

Суть задачи поиска ассоциативных правил заключается в

 

определении часто встречающихся наборов объектов в большом

 

множестве таких наборов. Данная задача является частным случаем

 

задачи классификации.

6

1.4. Задача кластеризации

Задача кластеризации состоит в разделении исследуемого множества объектов на группы "похожих" объектов, называемых кластерами (cluster).

Для задачи кластеризации характерно отсутствие какихлибо различий как между переменными, так и между объектами. Напротив, ищутся группы наиболее близких, похожих объектов.

Часто решение задачи разбиения множества элементов на кластеры называют кластерным анализом. Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.

7

2.Базовые методы Data Mining

Кбазовым методам Data Mining принято относить алгоритмы, основанные на переборе. Простой перебор всех исследуемых объектов требует (2N) операций, где N — количество объектов.

Следовательно, с увеличением количества данных объем вычислений растет экспоненциально, что при большом объеме делает решение любой задачи таким методом практически невозможным.

Методы:

1.Нечеткая логика

2.Генетические алгоритмы

3.Нейронные сети

8

3. Процесс Data Mining.

3.1. Этапы Data Mining

Процесс Data Mining является своего рода исследованием. Как любое исследование, этот процесс состоит из определенных этапов, включающих элементы сравнения, типизации, классификации, обобщения, абстрагирования, повторения.

Процесс Data Mining строит модель, а в процессе принятия решений эта модель эксплуатируется. Традиционный процесс Data Mining включает следующие этапы:

Этап 1. Анализ предметной области.

Этап 2. Постановка задачи

Этап 3. Подготовка данных

Этап 4. Построение модели

Этап 5. Проверка и оценка моделей

Этап 6. Выбор модели

Этап 7. Применение модели

Этап 8. Коррекция и обновление модели

9

4. Сферы применения Data Mining

Область использования Data Mining ничем не ограничена - она везде, где имеются какие-либо данные.

1.Применение Data Mining для решения бизнес-задач. Основные направления: банковское дело, финансы, страхование, производство, телекоммуникации, электронная коммерция, маркетинг, фондовый рынок и другие.

2.Применение Data Mining для решения задач государственного уровня. Основные направления: поиск лиц, уклоняющихся от налогов; средства в борьбе с терроризмом.

3.Применение Data Mining для научных исследований. Основные направления: медицина, биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия, прикладная химия, исследования, касающиеся наркотической зависимости, и другие.

4.Применение Data Mining для решения Web-задач. Основные направления: поисковые машины, счетчики и другие.

10