Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Деревья решений, ID3 (всё сразу).doc
Скачиваний:
17
Добавлен:
21.08.2019
Размер:
1.26 Mб
Скачать

План работы

Введение…………………………………………………………………………..2

1. Определение задачи отбора данных………………………………..…………….4

2. Способы получения знаний…………………………………………………….…5

2.1. Бизнес - приложения Data Mining…………………………..…………….7

2.1. Задача1 …………………………………………………………………….12

2.2. Задача2 …………………………………………………………………….13

3. Методы анализа данных…………………………………………………………..14

3.1. Деревья решений.. ………………………………………………………...14

3.1.1. Регрессионный анализ………………………………………………...16

3.1.2. К-ближайшие соседи……………………………………….…………16

3.1.3. Нейронные сети………………………………………………….…….16

3.1.4. Временные ряды……………………………………………………….17

3.1.5. Построение дерева решений………………………………………….18

3.1.6. Этапы построения деревьев решений…………………..…………….19

3.1.6.1. Теоретико-информационный критерий………………………..20

3.1.6.2. Статистический критерий………………………………………20

3.2.4. Преимущества использования деревьев решений…………………...22

3.2.5. Области применения деревьев решений…………………………...…22

4. Процесс построения деревьев решений на примере системы ID3……………….23

5. Обнаружение знаний в базах данных……………………………………………...27

6. Интеллектуальный анализ данных…………………………………………………29

6.1. Классификация стадий ИАД………………………..……………………….31

6.2. Классификация технологических методов ИАД…………………………..33

6.3. Метод индукции………………………………………...……………………35

6.3.1. Методы логической индукции………………………………………..36

6.3.2. Индукция правил……………………………...……………………….38

7. Сравнение возможностей деревьев решений и индукции правил…………….….41

8. Поставщики средств отбора данных………………………………………………..44

9. Выводы……………………………………………………………………………….45

Используемая литература………………………………...…………………………47

Введение.

В современном обществе все большие объемы информации сохраняются в электронном виде в базах данных. Источники таких больших потоков данных имеются во многих областях: банковское дело, розничная торговля, управление и диагностика, маркетинг и т.д. Общим для всех этих данных является то, что она содержит большое количество скрытых закономерностей, являющихся весьма важными для принятия стратегических решений. К сожалению, человеку не под силу извлечь эти закономерности просто из-за огромного размера баз данных. Таким образом, существует необходимость в компьютерных системах, способных анализировать подобного рода данные и представлять новые знания в удобной для восприятия человеком форме. Этот процесс называется извлечением данных (data mining) или, более точно, открытием знаний (knowledge discovery). Системы, решающие такие задачи имеют важное практическое значение и базируются на методах машинного обучения и обобщения знаний.

Являясь одним из аспектов машинного обучения, извлечение данных имеет, тем не менее, свои собственные характерные черты.

Основным отличием извлечения знаний из баз данных от традиционных методов машинного обучения является использование базы данных в качестве обучающею множества. Системы машинного обучения используют небольшие обучающие множества, состоящие из тщательно подобранных примеров. Базы данных, наоборот, обычно очень велики как в смысле количества атрибутов, так и в смысле количества объектов, представленных в базе данных. С одной стороны большое количество атрибутов дает больше шансов на то, что можно найти подходящие описания классов. С другой стороны, увеличение числа атрибутов приводит к увеличению размеров пространства поиска. Очевидно, для любой реальной базы данных размер пространства поиска будет очень большим, так что ни один из методов полного перебора не может быть применен. Необходимо использовать знания о предметной области и эвристики для сокращения перебора.

Базы данных постоянно обновляются. Информация добавляется, изменяется или удаляется. Следовательно, знания, извлеченные из базы данных ранее, уже не соответствуют содержащимся в ней данным. Очевидно, что обучающаяся система должна адаптироваться к подобным изменениям. Необходимо также учесть, что свежая информация более ценна, чем старая.

Каждый раз при изменении базы данных можно либо конструировать систему правил с нуля, либо использовать инкрементное обучение (incremental learning), когда знания, полученные на предыдущих этапах, используются для построения новых знаний.

Даже если база данных содержит всю информацию необходимую для корректной классификации объектов, некоторые данные могут не соответствовать действительности. Например, значения некоторых атрибутов могут содержать ошибки в результате измерений или субъективных суждений. Ошибка в значениях предсказываемых атрибутов приводит к тому, что некоторые объекты в обучающем множестве будут классифицированы неправильно. Несистематические ошибки такого рода обычно называются шумом

Другим примером искажения информации является отсутствие отдельных значений атрибутов. Такие примеры могут быть просто исключены из рассмотрения или же вместо отсутствующих значений можно подставить наиболее вероятные. Другой способ состоит в использовании отдельного значения <пусто> для отсутствующих значений.

В рамках данного научного направления проводится разработка систем извлечения знаний. Задача такой системы состоит в построении правил, определяющих класс объекта на основе значений предсказывающих атрибутов. Проблема состоит в том, что не все атрибуты, реально определяющие класс объекта, присутствуют в базе данных. Поэтому не всегда возможно построение правил, корректно классифицирующих объекты в терминах известных атрибутов.

Корректность найденных описаний может быть проверена разделением базы данных на две части. Первая часть используется в качестве обучающего множества, а вторая - в качестве проверочного. Правило будет корректным, если реальная вероятность каждого правила не слишком отличается от вероятности, предсказанной в процессе обучения.

Стремительное развитие информационных технологий, в частности, прогресс в методах сбора, хранения и обработки данных позволил многим организациям собирать огромные массивы данных, которые необходимо анализировать. Объемы этих данных настолько велики, что возможностей экспертов уже не хватает, что породило спрос на методы автоматического исследования (анализа) данных, который с каждым годом постоянно увеличивается.

Чтобы приступить к обнаружению знаний, сначала нужно четко сформулировать свою проблему, выбрать платформу и базу данных, оптимальные с точки зрения производительности отбора данных, выбрать программное обеспечение, которое решит необходимую задачу отбора данных, и подготовить данные для обработки.

Ключевыми факторами, влияющими на производительность средств отбора данных, являются:

  • масштабируемость;

  • использование реляционного подхода отбора данных, а не выборочного;

  • возможность выполнять множество запросов за один просмотр.

Программное обеспечение отбора знаний, как правило, хорошо решает одну или несколько частных задач, например, кластеризации или классификации. Чтобы выбрать наилучшее программное обеспечение для конкретного применения, предприятие должно определить, какой именно задачей отбора данных решается его бизнес-проблема.

Определение задачи отбора данных

В терминологии задач отбора данных нередко царит неразбериха. В этом разделе приводятся наиболее общеупотребительные названия каждой задачи и даются краткие определения.

Ассоциации/сходство

Ассоциации включают выработку закономерностей зависимости между множествами элементов, например, вероятности того, что, когда покупают картофельные чипсы, заодно покупают и содовую.

Для выработки ассоциаций, или сходства, двух элементов вычисляется опорный уровень, который равен проценту числа записей, в которых встречаются события А и В, по отношению к числу всех записей. Затем вычисляется доверительный уровень, который равен проценту числа записей, в которых встречаются события А и В, по отношению к числу записей с событием А.

Последовательности/временные шаблоны

Этот метод используется для того, чтобы выявить временную взаимосвязь, например:

в 80% случаев покупки портативного компьютера батарейки покупаются в течение следующих трех месяцев;

клиенты сотовой связи, делавшие в предыдущие три месяца на 25% меньше вызовов, с вероятностью 60% отказываются от услуг этой службы;

в течение месяца после землетрясения продажа огнетушителей вырастает на 400%.

Кластеризация

Кластеризация - это процесс группировки аналогичных элементов в соответствии со статистическим подобием. Кластеризация чаще всего используется для того, чтобы помочь участникам рынка разбить их клиентуру на различные группы. Эти знания могут быть использованы для разработки целевых маркетинговых программ. Например, предприятие может использовать кластеризацию, для того, чтобы выявить следующие группы:

  • покупателей, которые, по всей вероятности, будут покупать электронику для развлечений;

  • магазины, которые, вероятно, будут продавать спутниковые антенны;

  • клиентов сотовой телефонной связи с различными привычками пользования телефоном.

Классификация

Если кластеризация помогает выявить классы, то классификация позволяет отнести новые записи к существующим классам. Например, банк, просмотрев свою базу данных текущих клиентов, взявших кредит, может на основе сведений о доходах и задолженности сформировать два класса подателей кредитных заявок -- тех, кому, скорее всего, откажут, и тех, кто получит кредит. Перед одобрением новых займов банк может сопоставить сведения о задолженности и доходах авторов кредитных заявок, и выяснить, не попадают ли они в класс тех, кому, скорее всего, откажут.

Другое использование методов классификации состоит в выявлении владельцев кредитных карточек с похожими привычками, чтобы планировать привлекательные совместные карточки.

Предсказание/прогнозирование

Методы предсказания скорее прогнозируют будущее значение параметра, например, размер доходов или сумм, выплаченных по заявлениям, чем предсказывают вероятность события. Прогнозирующую модель можно использовать для анализа типа "что-если". Например, компания может варьировать параметры рекламы, размещения продукции и ценовой политики для определения влияния этих факторов на объем продаж.