- •Что такое Data Mining?
- •Понятие Статистики
- •Понятие Машинного обучения
- •Понятие Искусственного интеллекта
- •Сравнение статистики, машинного обучения и Data Mining
- •Развитие технологии баз данных
- •Понятие Data Mining
- •Data Mining как часть рынка информационных технологий
- •Классификация аналитических систем
- •Мнение экспертов о Data Mining
- •Отличия Data Mining от других методов анализа данных
- •Перспективы технологии Data Mining
- •Существующие подходы к анализу
- •Данные
- •Что такое данные?
- •Набор данных и их атрибутов
- •Измерения
- •Шкалы
- •Типы наборов данных
- •Данные, состоящие из записей
- •Графические данные
- •Химические данные
- •Форматы хранения данных
- •Базы данных. Основные положения
- •Системы управления базами данных, СУБД
- •Классификация видов данных
- •Метаданные
- •Методы и стадии Data Mining
- •Классификация стадий Data Mining
- •Сравнение свободного поиска и прогностического моделирования с точки зрения логики
- •Классификация методов Data Mining
- •Классификация технологических методов Data Mining
- •Свойства методов Data Mining
- •Задачи Data Mining. Информация и знания
- •Задачи Data Mining
- •Классификация задач Data Mining
- •Связь понятий
- •От данных к решениям
- •От задачи к приложению
- •Информация
- •Свойства информации
- •Требования, предъявляемые к информации
- •Знания
- •Сопоставление и сравнение понятий "информация", "данные", "знание"
- •Задачи Data Mining. Классификация и кластеризация
- •Задача классификации
- •Процесс классификации
- •Методы, применяемые для решения задач классификации
- •Точность классификации: оценка уровня ошибок
- •Оценивание классификационных методов
- •Задача кластеризации
- •Оценка качества кластеризации
- •Процесс кластеризации
- •Применение кластерного анализа
- •Кластерный анализ в маркетинговых исследованиях
- •Практика применения кластерного анализа в маркетинговых исследованиях
- •Выводы
- •Задачи Data Mining. Прогнозирование и визуализация
- •Задача прогнозирования
- •Сравнение задач прогнозирования и классификации
- •Прогнозирование и временные ряды
- •Тренд, сезонность и цикл
- •Точность прогноза
- •Виды прогнозов
- •Методы прогнозирования
- •Задача визуализации
- •Плохая визуализация
- •Сферы применения Data Mining
- •Применение Data Mining для решения бизнес-задач
- •Банковское дело
- •Страхование
- •Телекоммуникации
- •Электронная коммерция
- •Промышленное производство
- •Маркетинг
- •Розничная торговля
- •Фондовый рынок
- •Применение Data Mining в CRM
- •Исследования для правительства
- •Data Mining для научных исследований
- •Биоинформатика
- •Медицина
- •Фармацевтика
- •Молекулярная генетика и генная инженерия
- •Химия
- •Web Mining
- •Text Mining
- •Call Mining
- •Основы анализа данных
- •Анализ данных в Microsoft Excel
- •Описательная статистика
- •Центральная тенденция
- •Свойства среднего
- •Некоторые свойства медианы
- •Характеристики вариации данных
- •Корреляционный анализ
- •Коэффициент корреляции Пирсона
- •Регрессионный анализ
- •Последовательность этапов регрессионного анализа
- •Задачи регрессионного анализа
- •Выводы
- •Методы классификации и прогнозирования. Деревья решений
- •Преимущества деревьев решений
- •Процесс конструирования дерева решений
- •Критерий расщепления
- •Большое дерево не означает, что оно "подходящее"
- •Остановка построения дерева
- •Сокращение дерева или отсечение ветвей
- •Алгоритмы
- •Алгоритм CART
- •Алгоритм C4.5
- •Разработка новых масштабируемых алгоритмов
- •Выводы
- •Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация
- •Метод опорных векторов
- •Линейный SVM
- •Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев
- •Преимущества метода
- •Недостатки метода "ближайшего соседа"
- •Решение задачи классификации новых объектов
- •Решение задачи прогнозирования
- •Оценка параметра k методом кросс-проверки
- •Байесовская классификация
- •Байесовская фильтрация по словам
- •Методы классификации и прогнозирования. Нейронные сети
- •Элементы нейронных сетей
- •Архитектура нейронных сетей
- •Обучение нейронных сетей
- •Модели нейронных сетей
- •Персептрон
- •Программное обеспечение для работы с нейронными сетями
- •Пример решения задачи
- •Пакет Matlab
- •Нейронные сети. Самоорганизующиеся карты Кохонена.
- •Классификация нейронных сетей
- •Подготовка данных для обучения
- •Выбор структуры нейронной сети
- •Карты Кохонена
- •Самоорганизующиеся карты (Self-Organizing Maps, SOM)
- •Задачи, решаемые при помощи карт Кохонена
- •Обучение сети Кохонена
- •Пример решения задачи
- •Карты входов
- •Выводы
- •Методы кластерного анализа. Иерархические методы
- •Методы кластерного анализа
- •Иерархические методы кластерного анализа
- •Меры сходства
- •Методы объединения или связи
- •Иерархический кластерный анализ в SPSS
- •Пример иерархического кластерного анализа
- •Определение количества кластеров
- •Методы кластерного анализа. Итеративные методы.
- •Алгоритм k-средних (k-means)
- •Описание алгоритма
- •Проверка качества кластеризации
- •Алгоритм PAM ( partitioning around Medoids)
- •Предварительное сокращение размерности
- •Факторный анализ
- •Итеративная кластеризация в SPSS
- •Процесс кластерного анализа. Рекомендуемые этапы
- •Сложности и проблемы, которые могут возникнуть при применении кластерного анализа
- •Сравнительный анализ иерархических и неиерархических методов кластеризации
- •Новые алгоритмы и некоторые модификации алгоритмов кластерного анализа
- •Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)
- •Алгоритм WaveCluster
- •Алгоритм CLARA (Clustering LARge Applications)
- •Алгоритмы Clarans, CURE, DBScan
- •Методы поиска ассоциативных правил
- •Часто встречающиеся приложения с применением ассоциативных правил:
- •Введение в ассоциативные правила
- •Часто встречающиеся шаблоны или образцы
- •Поддержка
- •Характеристики ассоциативных правил
- •Границы поддержки и достоверности ассоциативного правила
- •Методы поиска ассоциативных правил
- •Разновидности алгоритма Apriori
- •AprioriTid
- •AprioriHybrid
- •Пример решения задачи поиска ассоциативных правил
- •Визуализатор "Правила"
- •Способы визуального представления данных. Методы визуализации
- •Визуализация инструментов Data Mining
- •Визуализация Data Mining моделей
- •Методы визуализации
- •Представление данных в одном, двух и трех измерениях
- •Представление данных в 4 + измерениях
- •Параллельные координаты
- •"Лица Чернова"
- •Качество визуализации
- •Представление пространственных характеристик
- •Основные тенденции в области визуализации
- •Выводы
- •Комплексный подход к внедрению Data Mining, OLAP и хранилищ данных в СППР
- •Классификация СППР
- •OLAP-системы
- •OLAP-продукты
- •Интеграция OLAP и Data Mining
- •Хранилища данных
- •Преимущества использования хранилищ данных
- •Процесс Data Mining. Начальные этапы
- •Этап 1. Анализ предметной области
- •Этап 2. Постановка задачи
- •Этап 3. Подготовка данных
- •1. Определение и анализ требований к данным
- •2. Сбор данных
- •Определение необходимого количества данных
- •3. Предварительная обработка данных
- •Очистка данных
- •Этапы очистки данных
- •Выводы
- •Процесс Data Mining. Очистка данных
- •Инструменты очистки данных
- •Выводы по подготовке данных
- •Процесс Data Mining. Построение и использование модели
- •Моделирование
- •Виды моделей
- •Математическая модель
- •Этап 4. Построение модели
- •Этап 5. Проверка и оценка моделей
- •Этап 6. Выбор модели
- •Этап 7. Применение модели
- •Этап 8. Коррекция и обновление модели
- •Погрешности в процессе Data Mining
- •Выводы
- •Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
- •Организационные Факторы
- •Человеческие факторы. Роли в Data Mining
- •CRISP-DM методология
- •SEMMA методология
- •Другие стандарты Data Mining
- •Стандарт PMML
- •Стандарты, относящиеся к унификации интерфейсов
- •Рынок инструментов Data Mining
- •Поставщики Data Mining
- •Классификация инструментов Data Mining
- •Программное обеспечение Data Mining для поиска ассоциативных правил
- •Программное обеспечение для решения задач кластеризации и сегментации
- •Программное обеспечение для решения задач классификации
- •Программное обеспечение Data Mining для решения задач оценивания и прогнозирования
- •Выводы
- •Инструменты Data Mining. SAS Enterprise Miner
- •Обзор программного продукта
- •Графический интерфейс (GUI) для анализа данных
- •Инструментарий для углубленного интеллектуального анализа данных
- •Набор инструментов для подготовки, агрегации и исследования данных
- •Интегрированный комплекс разнообразных методов моделирования
- •Интегрированные средства сравнения моделей и пакеты результатов
- •Скоринг по модели и простота развертывания модели
- •Гибкость благодаря открытости и расширяемости
- •Встроенная стратегия обнаружения данных
- •Распределенная система интеллектуального анализа данных, ориентированная на крупные предприятия
- •Основные характеристики пакета SAS Enterprise Miner 5.1
- •Специализированное хранилище данных
- •Подход SAS к созданию информационно-аналитических систем
- •Технические требования пакета SASR Enterprise Miner
- •Инструменты Data Mining. Система PolyAnalyst
- •Архитектура системы
- •PolyAnalyst Workplace - лаборатория аналитика
- •Аналитический инструментарий PolyAnalyst
- •Модули для построения числовых моделей и прогноза числовых переменных
- •Алгоритмы кластеризации
- •Алгоритмы классификации
- •Алгоритмы ассоциации
- •Модули текстового анализа
- •Визуализация
- •Эволюционное программирование
- •Общесистемные характеристики PolyAnalyst
- •WebAnalyst
- •Инструменты Data Mining. Программные продукты Cognos и система STATISTICA Data Miner
- •Особенности методологии моделирования с применением Cognos 4Thought
- •Система STATISTICA Data Miner
- •Средства анализа STATISTICA Data Miner
- •Инструменты Oracle Data Mining и Deductor
- •Oracle Data Mining
- •Oracle Data Mining - функциональные возможности
- •Прогнозирующие модели
- •Краткая характеристика алгоритмов классификации
- •Регрессия
- •Поиск существенных атрибутов
- •Дескрипторные модели
- •Алгоритмы кластеризации
- •Аналитическая платформа Deductor
- •Поддержка процесса от разведочного анализа до отображения данных
- •Архитектура Deductor Studio
- •Архитектура Deductor Warehouse
- •Описание аналитических алгоритмов
- •Инструмент KXEN
- •Реинжиниринг аналитического процесса
- •Технические характеристики продукта
- •Предпосылки создания KXEN
- •Структура KXEN Analytic Framework Version 3.0
- •Технология IOLAP
- •Data Mining консалтинг
- •Data Mining-услуги
- •Работа с клиентом
- •Примеры решения
- •Техническое описание решения
- •Выводы
Встроенная стратегия обнаружения данных
Интеллектуальный анализ данных становится особенно эффективным, если он является составной частью интегрированной стратегии предоставления информации. Пакет Enterprise Miner органично интегрируется с другими предложениями SAS, например, пакетом SAS ETL Studio, средствами аналитической обработки OLAP, прогностическим и другими аналитическими модулями, а также с приложением SAS Text Miner. Подход SAS к созданию информационно-аналитических систем кратко будет изложен в конце лекции.
Распределенная система интеллектуального анализа данных, ориентированная на крупные предприятия
Пакет SAS Enterprise Miner может быть развернут с использованием Web-портала для тонких клиентов, что обеспечивает удобный доступ к пакету для множества пользователей при минимальных затратах на обслуживание клиентских программ. Пакет SAS Enterprise Miner поддерживает серверные системы Windows, а также различные UNIX~платформы. Технические характеристики пакета изложены в конце этой лекции.
Основные характеристики пакета SAS Enterprise Miner 5.1
Интерфейсы
Простой графический интерфейс, создающий диаграммы процессов обработки данных:
∙Быстрое создание большого числа качественных моделей.
∙Возможность доступа через Web-интерфейс.
∙Доступ к среде программирования SAS.
∙Возможность обмена диаграммами в формате XML.
∙Возможность повторного использования диаграмм в качестве шаблонов для других проектов и пользователей.
Пакетная обработка:
∙Включает в себя все те же возможности, что и графический интерфейс.
∙Основана на языке SAS macro.
Экспериментальный интерфейс Java API.
Репозитарий моделей с Web-интерфейсом:
∙Управление большими портфелями моделей.
∙Поиск моделей по заданному алгоритму, целевой переменной и т.п.
∙Публикация результатов в виде ступенчатых диаграмм, деревьев и скоринг-кодов, удобных для специалистов в области бизнеса и анализа данных.
Масштабируемая обработка
∙Серверная обработка - обучение модели в асинхронном режиме. Аккуратная остановка обработки (по заданным критериям).
∙Параллельная обработка - одновременный запуск нескольких диаграмм или инструментов.
259
∙Многопоточные прогностические алгоритмы.
∙Все хранение и обработка данных - на серверах.
Доступ к данным
Доступ более чем к 50 различным файловым структурам.
Интеграция с пакетом SAS ETL Studio посредством SAS Metadata Server:
∙SAS ETL Studio можно использовать для определения исходных, обучающих таблиц для пакета Enterprise Miner.
∙SAS ETL Studio можно использовать для извлечения и развертывания скоринг-кода пакета Enterprise Miner.
Выборки
∙Простая случайная.
∙Стратифицированная.
∙Взвешенная.
∙Кластерная.
∙Систематическая.
∙Первые N наблюдений.
∙Выборка редких событий.
Разбивка данных
∙Создание обучающих, проверочных и тестовых наборов данных.
∙Обеспечение качественного обобщения моделей на основании контрольных данных.
∙Стандартная стратификация по целевому классу.
∙Сбалансированная разбивка по любой классовой переменной.
Преобразования
∙Простые: логарифмическое, квадратный корень, обратное, квадратичное, экспоненциальное, стандартизованное.
∙Накопительные: bucketed (с разбивкой по областям), квантильное, оптимизированная разбивка по взаимосвязи с целевымм значениями.
∙Оптимизированные: максимизация нормализации, максимизация корреляции с целевыми значениями, выравнивание распределения по целевым уровням.
Фильтрация недостоверных данных
∙Применение различных распределительных порогов, позволяющих исключить значения из экстремальных интервалов.
∙Объединение классовых значений, встречающихся менее n раз.
Замена данных
∙С использованием мер центрированности.
∙На основе распределения.
∙Заполнение дерева суррогатными значениями.
∙Методом усреднения расстояний.
260
∙С использованием устойчивых M-оценок.
∙С использованием стандартных констант.
Описательная статистика
Одномерные статистические таблицы и графики:
∙Интервальные переменные n, среднее, медиана, минимум, максимум, стандартное отклонение, масштабированное отклонение и процент отсутствия.
∙Классовые переменные число категорий, счетчики, модальные, процентные модальные, процент отсутствия.
∙Графики распределения.
∙Статистическая разбивка для каждого уровня целевых классов.
Двумерные статистические таблицы и графики:
∙Упорядоченные графики корреляции Пирсона и Спирмана.
∙Упорядоченный график хи-квадрат с возможностью группировки непрерывных исходных данных по n группам.
∙График коэффициентов вариации.
Отбор переменных по logworth-критерию.
Другие интерактивные графики:
∙"Тепловые" карты, отражающие корреляцию или ассоциацию типа хи-квадрат первоначальных значений с целевыми признаками по сегментам.
∙Графики стоимости переменных, ранжирующие первоначальные значенияна основании их стоимости по целевому признаку.
∙Распределения классовых переменных по целевым признакам и/или сегментным переменным.
Графики масштабированного среднего отклонения.
Графика/визуализация
Графики, создаваемые в пакетном и интерактивном режимах: графики разброса, гистограммы, многомерные графики, круговые диаграммы, диаграммы с областями, пузырьковые диаграммы.
Удобный Java-мастер для построения графиков:
∙Заголовки и сноски.
∙Возможность применения к данным предложения WHERE.
∙Возможность выбора из нескольких цветовых схем.
∙Простота масштабирования осей.
∙Использование данных, полученных в результате анализа в пакете Enterprise Miner, для создания специализированных графиков.
Динамическая загрузка данных в клиентское приложение при помощи нескольких методик выборки.
261
Графики и таблицы интерактивно связаны между собой и поддерживают выполнение таких операций как очистка и связывание.
Удобное копирование данных и графиков в другие приложения, а также возможность их сохранения в виде файлов GIF или TIF.
Кластеризация
∙По выбору пользователя или автоматический - выбор k лучших кластеров.
∙Различные стратегии кодирования классовых переменных в процессе анализа.
∙Управление недостающими данными.
∙Графики профилей переменных сегментов, отражающие распределение исходных данных и других факторов в рамках каждого кластера.
∙Профиль дерева решений, использующий исходные данные для составления прогноза о принадлежности кластеру.
∙Оценочный код PMML.
Анализ рыночной корзины
Выявление ассоциаций и причинно-следственных связей:
∙Сетевой график правил, упорядоченный по степени достоверности.
∙Статистические графики подъема, достоверности, прогноза достоверности и поддержки правил.
∙Статистическая гистограмма частотных показателей в заданных границах поддержки и достоверности.
∙График зависимости разброса достоверности от прогнозируемой достоверности.
∙Таблица описания правил.
∙Сетевой график правил.
Органичная интеграция правил с другими исходными данными обеспечивает расширенное прогностическое моделирование.
Удобный вывод правил обеспечивает кластеризацию клиентов по их покупательным и поведенческим характеристикам.
Оценочный код PMML.
Анализ Web-активности
∙Масштабируемое и эффективное выявление наиболее популярных Интернет-маршрутов на основе анализа данных об Интернет-активности пользователей.
∙Выявление наиболее частых последовательностей в последовательных данных любого типа.
Уменьшение размерности
Выбор переменных:
∙Удаление переменных, не связанных с целевыми признаками, на основе критериев отбора хи-квадрат или R2.
262
∙Удаление переменных из иерархий.
∙Удаление переменных со многими недостающими значениями.
∙Сокращение числа классовых переменных с большим количеством уровней.
∙Группировка непрерывных исходных данных для выявления нелинейных взаимосвязей.
∙Выявление взаимодействий.
Главные компоненты:
∙Вычисление собственных значений и собственных векторов на основании матриц корреляции и ковариации.
∙Графики: масштабированное отклонение, логарифмические собственные значения, кумулятивные пропорциональные собственные значения.
∙Исследование выбранных основных компонентов при помощи методов предиктивного моделирования.
Исследование временных рядов:
∙Сокращение объемов транзакционных данных на основе формирования временных рядов с использованием разнообразных методов аккумуляции и преобразования.
∙Методы анализа включают сезонный анализ, анализ тенденций, анализ временных областей, сезонную декомпозицию.
∙Исследование сокращенных временных рядов при помощи методов кластерного и предиктивного моделирования.
Управление временными метриками при помощи описательных данных.
Утилита SAS Code Node
∙Обеспечивает запись кода SAS для упрощения сложных процедур подготовки и преобразования данных.
∙Позволяет использовать процедуры других продуктов SAS.
∙Поддерживает импорт внешних моделей.
∙Позволяет создавать собственные модели и узлы Enterprise Miner.
∙Содержит макропеременные, упрощающие ссылку на источники данных, переменные и т.п.
∙Имеет расширяемую логику формирования оценочного кода.
Исчерпывающие средства моделирования
∙Выбор моделей на базе обучающей, проверочной или тестовой выборки данных с использованием различных критериев, таких как: прибыли или убытки, AIC, SBC, среднеквадратичная ошибка, частота ошибок классификации, ROC, Джини, KS (Колмогорова-Смирнова).
∙Поддерживает двоичные, номинальные, порядковые и интервальные исходные данные и целевые признаки.
∙Удобный доступ к оценочному коду и всем источникам данных.
∙Отображение нескольких результатов в одном окне позволяет лучше оценить эффективность модели.
Регрессии
∙Линейная и логистическая.
263
∙Пошаговая, с прямой и обратной выборкой.
∙Построитель условий для уравнений: полиномиальных, основных взаимодействий, поддержка иерархии эффектов.
∙Перекрестная проверка.
∙Правила для иерархии эффектов.
∙Методы оптимизации: сопряженные градиенты, метод двойных ломаных, метод НьютонаРафсона с линейным или гребневым поиском, квазиньютоновский метод, метод доверительных областей.
∙Оценочный код PMML.
Деревья решений
Общая методология:
∙CHAID (автоматическое выявление взаимодействия по методу хи-квадрат).
∙Деревья классификации и регрессии.
∙C 4.5.
∙Отбор деревьев на основе целевых значений прибыльности или роста с соответствующим отсечением ветвей.
Критерии расщепления: вероятностный критерий хи-квадрат, вероятностный F-критерий, критерий Джини, критерий энтропии, уменьшение дисперсии. Автоматический вывод идентификаторов листьев дерева в качестве входных значений для последующего моделирования.
Отображение правил на английском языке.
Вычисление значимости переменных для предварительного отбора. Уникальное представление консолидированной диаграммы дерева. Интерактивная работа с деревом на настольном ПК:
∙Интерактивное расширение и обрезание деревьев.
∙Задание специальных точек разбиения, включая двоичные или многовариантные разбиения.
∙Свыше 13 динамически связанных таблиц и графиков, позволяющих произвести более качественную оценку дерева.
∙Возможность распечатать диаграмму дерева на одном или нескольких листах.
Воснове - новая быстрая процедура ARBORETUM.
Нейронные сети
Узел нейронной сети:
∙Гибкие архитектуры сетей с развитыми функциями комбинирования и активации.
∙10 методов обучения сети.
264
∙Предварительная оптимизация.
∙Автоматическая стандартизация входных параметров.
∙Поддержка направленных связей.
Узел самоорганизующейся нейронной сети:
∙Автоматизированное создание многоуровневых персептронов для поиска оптимальной конфигурации.
∙Выбор функций типа и активации из четырех различных типов архитектур.
∙Оценочный код PMML.
Узел нейронной сети анализа данных (DM Neural node):
∙Создание модели с уменьшением размерности и выбором функций.
∙Быстрое обучение сети.
∙Линейное и нелинейное оценивание.
Двухуровневое моделирование
∙Последовательное и параллельное моделирование для классовых и интервальных целевых признаков.
∙Выбор модели в виде дерева решений, регрессии или нейронной сети на каждом уровне.
∙Управление применением прогноза для классов к прогнозу интервалов.
∙Точная оценка экономической выгодности клиентов.
Методы вывода путем сопоставления
∙Метод отбора ближайших k-соседей для категоризации или прогноза наблюдений.
∙Запатентованные методы создания дерева и поиска с уменьшенной размерностью.
Множества моделей
∙Объединение прогнозов моделей для создания потенциально более сильного решения.
∙Среди методов: усреднение, мажоритарная выборка, выбор максимального значения.
Сравнение моделей
∙Сравнение нескольких моделей в рамках единой инструментальной оболочки для всех источников данных.
∙Автоматический выбор лучшей модели на основе заданного пользователем критерия.
∙Расширенная статистика соответствия и диагностики.
∙Ступенчатые диаграммы.
∙Кривые ROC.
∙Диаграммы прибылей и убытков с возможностью выбора решения.
∙Матрица неточностей (классификации).
∙График распределения вероятностных оценок классовых целевых признаков.
∙Ранжирование и распределение оценок интервальных целевых признаков.
Количественная оценка
∙Интерактивная количественная оценка узла в рамках графического интерфейса.
∙Автоматическая генерация оценочного кода на языках SAS, C, Java и PMML.
265