Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
госы / ias.docx
Скачиваний:
63
Добавлен:
20.05.2015
Размер:
190.86 Кб
Скачать

Практическое применение Data Mining – прикладные задачи для банков, используемые методы.

Классическим примером применения Data Mining на практике является решение проблемы о возможной некредитоспособности клиентов банка. Этот вопрос, тревожащий любого сотрудника кредитного отдела банка, можно разрешить и интуитивно. Если образ клиента в сознании банковского служащего соответствует его представлению о кредитоспособном клиенте, то кредит выдавать можно, иначе - отказать. По схожей схеме, но более продуктивно и полностью автоматически, работают установленные в тысячах американских банках системы поддержки принятия решений (Decision System Support) со встроенной функциональностью Data Mining. Лишенные субъективной предвзятости, они опираются в своей работе только на историческую базу данных банка, где записывается детальная информация о каждом клиенте и, в конечном итоге, факт его кредитоспособности. Классификационные алгоритмы Data Mining обрабатывают эти данные и, полученные результаты, используются далее для принятия решений.

В страховании, также как банковском деле и маркетинге, возникает задача обработки больших объемов информации для определения типичных групп (профилей) клиентов. Эта информация используется для того, чтобы предлагать определенные услуги страхования с наименьшим для компании риском и, возможно, с пользой для клиента. Также, с помощью технологий Data Mining решается такая часто встречающаяся в страховании задача, как определение случаев мошенничества(fraud detection).

В медицинских и биологических исследованиях, равно как и в практической медицине, спектр решаемых задач настолько широк, что возможно использование любых методологий Data Mining. Примером может служить построение диагностической системы или исследование эффективности хирургического вмешательства.

Задачи кластеризации. Постановка задачи, базовые алгоритмы решения, достоинства и недостатки. Применение задачи кластеризации в банковской сфере.

Кластеризация- Разбиение множества документов к некоторой категории

Методы:

Декомпозиция (разделение, k-клатеризация)

В этих методах изначально каждый объект связан только с одной группой-кластером

Иерархическая кластеризация

В этом случае каждая группа большего размера состоит из групп меньшего размера. Группы (кластеры) иерархически связаны

  • Классификация– это отнесение объекта к одному из заранее известных классов (множеств, типов и т.д.)

  • Кластеризация – это разделение множества исходных объектов на классы (кластеры), число которых заранее не определено.

Кластеризацию используют, когда отсутствуют априорные сведения относительно классов, к которым можно отнести объекты исследуемого набора данных, либо когда число объектов велико, что затрудняет их ручной анализ.

Постановка задачи кластеризации сложна и неоднозначна, так как:

  • оптимальное количество кластеров в общем случае неизвестно;

  • выбор меры «похожести» или близости свойств объектов между собой, как и критерия качества кластеризации, часто носит субъективный характер

Цели:

  • Изучение данных. Разбиение множества объектов на группы помогает выявить

    • внутренние закономерности, увеличить наглядность представления данных,

    • выдвинуть новые гипотезы, понять, насколько информативны свойства объектов.

  • Облегчение анализа.

    • При помощи кластеризации можно упростить дальнейшую

    • обработку данных и построение моделей: каждый кластер обрабатывается индивидуально, и модель создается для каждого кластера в отдельности.

    • В этом смысле кластеризация может рассматриваться как подготовительный этап перед решением других задач Data Mining: классификации, регрессии, ассоциации, последовательных шаблонов.

  • Сжатие данных.

    • В случае, когда данные имеют большой объем, кластеризация позволяет сократить объем хранимых данных, оставив по одному наиболее типичному представителю от каждого кластера.

  • Прогнозирование.

    • Кластеры используются не только для компактного представления

имеющихся объектов, но и для распознавания новых. Каждый новый объект относится к тому кластеру, присоединение к которому наилучшим образом удовлетворяет критерию качества кластеризации. Значит, можно прогнозировать поведение объекта, предположив, что оно будет схожим с поведением других объектов кластера.

  • Обнаружение аномалий.

    • Кластеризация применяется для выделения нетипичных объектов. Эту задачу также называют обнаружением аномалий (outlier detection).

    • Интерес здесь представляют кластеры (группы), в которые попадает крайне мало, скажем один-три, объектов

Цель кластеризации – построить оптимальное разбиение объектов на группы:

    • разбить Nобъектов наkкластеров;

Алгоритмы:

  • Иерархические алгоритмы

  • Минимальное покрывающее дерево

  • k-Meansалгоритм (алгоритмk-средних)

  • Метод ближайшего соседа

  • Алгоритмы нечеткой кластеризации

  • Применение нейронных сетей

  • Генетические алгоритмы

  • Метод закалки

Применение:

  • Анализ данных (Data mining)

    • Упрощение работы с информацией

    • Визуализация данных

  • Группировка и распознавание объектов

    • Распознавание образов

    • Группировка объектов

  • Извлечение и поиск информации

    • Построение удобных классификаторов

Соседние файлы в папке госы