Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Дельгадо.doc
Скачиваний:
4
Добавлен:
09.11.2018
Размер:
928.77 Кб
Скачать

Определение модели вычисления точности и важности.

Некоторые авторы указали на некоторые недостатки поддержки\достоверности для оценки ассоциативного правила.

Чтобы избежать этих недостатков и быть уверенным в том, что открываемые интересны и правильны был рассмотрен новый путь. Этот путь использует определенные факторы и новую концепцию очень сильных правил.

Определение 4. Достоверный фактор нечеткого ассоциативного правила (НАП) это значение

Если , то

Если при условии согласия, что если , тогда и если, тогда

Достоверный фактор принимает значение в . Он положителен, когда зависимость между и , равен нулю, когда они независимы и отрицателен, когда зависимость отрицательная. Следующее утверждение – это интересное свойство, показанное ниже

Утверждение 1. , тогда и только тогда, когда

Это свойство гарантирует, что достоверный фактор НАП достигает своего возможного максимума – значение 1, тогда и только тогда, когда правило полностью точно.

2.3 Алгоритмы выявления ассоциативных правил.

Первые алгоритмы выявления АП были разработаны Agrawal[2]. Эти алгоритмы получения строгих правил от частых наборов данных, в свою очередь, это те наборы элементов с поддержкой больше .

Самый известный алгоритм Apriori базируется на простом, но ключевом фундаментальном наблюдении о частых наборов данных: «Каждое подмножество частых наборов данных должно быть также частым набором данных».

Хотя эта модель интеллектуального анализа данных связана с двоичной транзакционной базой данных, легко обобщить ее для более сложных структур данных, принимая во внимание, что понятие элемента и набора элементов являются абстрактными. После первой статьи Agrawal проделал много работы в данном направление и были исследованы несколько интересных ситуаций. Многие статьи посвящены разработке алгоритмов нахождения простых АП.

Большинство существующих алгоритмов работают в два шага:

  1. Найти частый набор данных. На этом шаге обычно рассматривают транзакции одна за одной, обновляя поддержку для каждого набора данных каждый раз, когда транзакция рассмотрена.

  2. Извлечение правил с точностью больше чем определенный пользователем порог из частых наборов данных, полученных на шаге 1. В особенности, если наборы данных и частые, мы можем получить правило . Поддержка этого правила достаточно высока, так как она равна поддержке набора данных .Тем не менее, мы должны проверить точность правило, для того, чтобы определить, является ли оно сильным.

2.4 Ассоциативные правила в реляционной базе данных.

Начиная с 90-х реляционные базы данных обычно хранят данные и сегодня предполагается, что они хранят очень большое количество скрытых ценных и полезных знаний. Таким образом, становится необходимым наличие методов обнаружения паттернов в реляционной базе данных.

Данные в реляционной базе данных хранятся в таблицах, где каждая строка (кортеж) описывает объект и каждая колонка одна из характеристик\атрибут объекта. Для каждого кортежа , место для значения атрибута (колонки) . Алгоритмы извлечения ассоциативных правил были применены для представления паттернов в реляционных базах данных, определяя элементы в виде пары и транзакции в виде кортежей. Нижеследующая формализация описывает это. Пусть - множество атрибутов. Обозначим через набор элементов сопряженных с .

Каждую экземпляр из связанная с множеством , обозначим через с элементами в . Каждый кортеж связан с уникальной транзакцией нижеследующим путем:

Нет общих пар среди элементов одной транзакции с одинаковым атрибутом, так как соблюдается Первая Нормальная Форма.

Самые ранние исследования рассматриваются категорические атрибуты, хотя тема обнаружения ассоциативных правил затрагивает количественные значения, называется количественные ассоциативные правила. Две трудности сразу возникают, когда используются напрямую числовые значения, задача извлечения очень дорогая а также и поддержка и семантическое содержание довольно бедное. Одно из решений - это разделить на два интервала домен количественных атрибутов и использовать это множество кластеров как новый домен атрибутов. Несколько путей базирующиеся на этой идее были успешными, другие улучшили кластеризацию во время процесса обработки, другие до него. Это решение имеет два недостатка: это тяжело для кластеров приспосабливать (для пользователей) значимые концепции и доверие и точность правил может быть очень чувствительной даже для малейшего изменения границ.

Альтернативный софт позволяет решить данные недостатки. Идея состоит в том, чтобы определить множество семантических лингвистических термов, заданные при помощи нечеткого множества на домене количественных атрибутов и использующие их как новый домен. Теперь, смысл новых значений ясен и правила не чувствительны к небольшим изменениям границ, потому что они нечеткие.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]