Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Шпоры по Семеновой.doc
Скачиваний:
5
Добавлен:
19.04.2019
Размер:
612.86 Кб
Скачать

Вопрос 13. Новые технологии извлечения знаний из больших баз данных

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информации в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Специфика современных требований к такой переработке следующие:

      • данные имеют неограниченный объем;

      • данные являются разнородными (количественными, качественными, текстовыми);

      • результаты должны быть конкретны и понятны;

      • инструменты для обработки сырых данных должны быть просты в использовании.

Обнаружение знаний в базах данных– аналитический процесс исследования человеком большого объема информации с привлечением средств автоматизированного исследования данных с целью обнаружения скрытых в данных структур или зависимостей. Предполагается полное или частичное от­сутствие априорных представлений о характере скрытых структур и за­висимостей. KDD включает предварительное осмысление и неполную формулировку задачи (в терминах целевых переменных), преобразова­ние данных к доступному для автоматизированного анализа формату и их предварительную обработку, обнаружение средствами автоматического исследования данных (data mining) скрытых структур или зависимостей, апробация обнаруженных моделей на новых, не использовав­шихся для построения моделей данных и интерпретация человеком обнаруженных моделей.

Data mining (дословно, «разработка данных») – исследование и обна­ружение “машиной” (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых структур или зависимостей, которые:

- ранее не были известны,

- нетривиальны,

- практически полезны,

- доступны для интерпретации человеком.

Обзор алгоритмов data mining

При исследовании данных средствами data mining используется большое число различных методов и их различные комбинации. Перечислим и дадим краткую характеристику наиболее важные и часто используемые методы:

1) Кластеризация

Методы кластерного анализа позволяют разделить изучаемую совокупность объектов на группы “схожих” объектов, называемых кластерами, разнести записи в различные группы, или сегменты.

2) Ассоциация, или метод корзины покупателя

Ассоциация, или метод корзины покупателя (market basket analysis) является одним из вариантов кластеризации, используемым для поиска групп характеристик, наблюдаемых, большей частью, одновременно. Анализ ассоциации имеет смысл в том случае, если несколько событий связаны друг с другом.

3) Деревья решений

Алгоритмы деревьев – одни из самых быстрых и эффективно реализуемых в области KDD, поэтому они получили широкое распространение. Их вычислительная сложность определяется главным образом типом применяемого критерия расщепления. Во многих случаях время нахождения критерия расщепления линейно зависит от количества полей. Зависимость времени решения от количества записей n часто линейная или близкая к ней (как nlog(n)).

4) Метод ближайших соседей

Этот метод очень близко примыкает к методам KDD, хотя, строго говоря, не относится к собственно извлечению знаний из данных.

5) Нейронные сети

Нейросетевые методы условно можно отнести к области KDD. Эти методы успешно решают многие задачи прогноза, задачи нахождения зависимости одних переменных от других, но строимая зависимость не представляется в ясном для понимания человеком виде. Нейросетевые методы очень популярны и широко применяются, в том числе при медицинских исследованиях (Амосов и др. 1975; Лукович, 1987; Гольцев, 1987; Кудряшев и др., 1996; Фролов и др., 1999; Фролов, 2000).

Основной недостаток, сдерживающий использование нейронных сетей для извлечения знаний – их “непрозрачность”. Построенная модель, как правило, не имеет четкой интерпретации. Недавно были предложены алгоритмы, которые могут транслировать модель нейронной сети в набор более легко воспринимаемых правил. Такую надстройку над технологиями нейронной сети предлагают некоторые оригинальные продукты, но суть лежащих в их основе алгоритмов – это уже отдельная тема.

6) Нечеткая логика

Неопределенность возникает, как правило, из-за дефицита информации, имеющей отношение к решаемой задаче. Это может быть неполная, неточная, фрагментарная, не полностью надежная, противоречивая информация (например, записана со слов больного).

7) Генетические алгоритмы

Этот класс методов, не принадлежит целиком к KDD, а может быть использован в очень разных задачах. Генетические алгоритмы также часто используются для решения разнообразных комбинаторных задач и задач оптимизации. Но лежащая в основе генетических алгоритмов идея оказалась плодотворной и в области KDD.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]