- •Что такое Data Mining?
- •Понятие Статистики
- •Понятие Машинного обучения
- •Понятие Искусственного интеллекта
- •Сравнение статистики, машинного обучения и Data Mining
- •Развитие технологии баз данных
- •Понятие Data Mining
- •Data Mining как часть рынка информационных технологий
- •Классификация аналитических систем
- •Мнение экспертов о Data Mining
- •Отличия Data Mining от других методов анализа данных
- •Перспективы технологии Data Mining
- •Существующие подходы к анализу
- •Данные
- •Что такое данные?
- •Набор данных и их атрибутов
- •Измерения
- •Шкалы
- •Типы наборов данных
- •Данные, состоящие из записей
- •Графические данные
- •Химические данные
- •Форматы хранения данных
- •Базы данных. Основные положения
- •Системы управления базами данных, СУБД
- •Классификация видов данных
- •Метаданные
- •Методы и стадии Data Mining
- •Классификация стадий Data Mining
- •Сравнение свободного поиска и прогностического моделирования с точки зрения логики
- •Классификация методов Data Mining
- •Классификация технологических методов Data Mining
- •Свойства методов Data Mining
- •Задачи Data Mining. Информация и знания
- •Задачи Data Mining
- •Классификация задач Data Mining
- •Связь понятий
- •От данных к решениям
- •От задачи к приложению
- •Информация
- •Свойства информации
- •Требования, предъявляемые к информации
- •Знания
- •Сопоставление и сравнение понятий "информация", "данные", "знание"
- •Задачи Data Mining. Классификация и кластеризация
- •Задача классификации
- •Процесс классификации
- •Методы, применяемые для решения задач классификации
- •Точность классификации: оценка уровня ошибок
- •Оценивание классификационных методов
- •Задача кластеризации
- •Оценка качества кластеризации
- •Процесс кластеризации
- •Применение кластерного анализа
- •Кластерный анализ в маркетинговых исследованиях
- •Практика применения кластерного анализа в маркетинговых исследованиях
- •Выводы
- •Задачи Data Mining. Прогнозирование и визуализация
- •Задача прогнозирования
- •Сравнение задач прогнозирования и классификации
- •Прогнозирование и временные ряды
- •Тренд, сезонность и цикл
- •Точность прогноза
- •Виды прогнозов
- •Методы прогнозирования
- •Задача визуализации
- •Плохая визуализация
- •Сферы применения Data Mining
- •Применение Data Mining для решения бизнес-задач
- •Банковское дело
- •Страхование
- •Телекоммуникации
- •Электронная коммерция
- •Промышленное производство
- •Маркетинг
- •Розничная торговля
- •Фондовый рынок
- •Применение Data Mining в CRM
- •Исследования для правительства
- •Data Mining для научных исследований
- •Биоинформатика
- •Медицина
- •Фармацевтика
- •Молекулярная генетика и генная инженерия
- •Химия
- •Web Mining
- •Text Mining
- •Call Mining
- •Основы анализа данных
- •Анализ данных в Microsoft Excel
- •Описательная статистика
- •Центральная тенденция
- •Свойства среднего
- •Некоторые свойства медианы
- •Характеристики вариации данных
- •Корреляционный анализ
- •Коэффициент корреляции Пирсона
- •Регрессионный анализ
- •Последовательность этапов регрессионного анализа
- •Задачи регрессионного анализа
- •Выводы
- •Методы классификации и прогнозирования. Деревья решений
- •Преимущества деревьев решений
- •Процесс конструирования дерева решений
- •Критерий расщепления
- •Большое дерево не означает, что оно "подходящее"
- •Остановка построения дерева
- •Сокращение дерева или отсечение ветвей
- •Алгоритмы
- •Алгоритм CART
- •Алгоритм C4.5
- •Разработка новых масштабируемых алгоритмов
- •Выводы
- •Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация
- •Метод опорных векторов
- •Линейный SVM
- •Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев
- •Преимущества метода
- •Недостатки метода "ближайшего соседа"
- •Решение задачи классификации новых объектов
- •Решение задачи прогнозирования
- •Оценка параметра k методом кросс-проверки
- •Байесовская классификация
- •Байесовская фильтрация по словам
- •Методы классификации и прогнозирования. Нейронные сети
- •Элементы нейронных сетей
- •Архитектура нейронных сетей
- •Обучение нейронных сетей
- •Модели нейронных сетей
- •Персептрон
- •Программное обеспечение для работы с нейронными сетями
- •Пример решения задачи
- •Пакет Matlab
- •Нейронные сети. Самоорганизующиеся карты Кохонена.
- •Классификация нейронных сетей
- •Подготовка данных для обучения
- •Выбор структуры нейронной сети
- •Карты Кохонена
- •Самоорганизующиеся карты (Self-Organizing Maps, SOM)
- •Задачи, решаемые при помощи карт Кохонена
- •Обучение сети Кохонена
- •Пример решения задачи
- •Карты входов
- •Выводы
- •Методы кластерного анализа. Иерархические методы
- •Методы кластерного анализа
- •Иерархические методы кластерного анализа
- •Меры сходства
- •Методы объединения или связи
- •Иерархический кластерный анализ в SPSS
- •Пример иерархического кластерного анализа
- •Определение количества кластеров
- •Методы кластерного анализа. Итеративные методы.
- •Алгоритм k-средних (k-means)
- •Описание алгоритма
- •Проверка качества кластеризации
- •Алгоритм PAM ( partitioning around Medoids)
- •Предварительное сокращение размерности
- •Факторный анализ
- •Итеративная кластеризация в SPSS
- •Процесс кластерного анализа. Рекомендуемые этапы
- •Сложности и проблемы, которые могут возникнуть при применении кластерного анализа
- •Сравнительный анализ иерархических и неиерархических методов кластеризации
- •Новые алгоритмы и некоторые модификации алгоритмов кластерного анализа
- •Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)
- •Алгоритм WaveCluster
- •Алгоритм CLARA (Clustering LARge Applications)
- •Алгоритмы Clarans, CURE, DBScan
- •Методы поиска ассоциативных правил
- •Часто встречающиеся приложения с применением ассоциативных правил:
- •Введение в ассоциативные правила
- •Часто встречающиеся шаблоны или образцы
- •Поддержка
- •Характеристики ассоциативных правил
- •Границы поддержки и достоверности ассоциативного правила
- •Методы поиска ассоциативных правил
- •Разновидности алгоритма Apriori
- •AprioriTid
- •AprioriHybrid
- •Пример решения задачи поиска ассоциативных правил
- •Визуализатор "Правила"
- •Способы визуального представления данных. Методы визуализации
- •Визуализация инструментов Data Mining
- •Визуализация Data Mining моделей
- •Методы визуализации
- •Представление данных в одном, двух и трех измерениях
- •Представление данных в 4 + измерениях
- •Параллельные координаты
- •"Лица Чернова"
- •Качество визуализации
- •Представление пространственных характеристик
- •Основные тенденции в области визуализации
- •Выводы
- •Комплексный подход к внедрению Data Mining, OLAP и хранилищ данных в СППР
- •Классификация СППР
- •OLAP-системы
- •OLAP-продукты
- •Интеграция OLAP и Data Mining
- •Хранилища данных
- •Преимущества использования хранилищ данных
- •Процесс Data Mining. Начальные этапы
- •Этап 1. Анализ предметной области
- •Этап 2. Постановка задачи
- •Этап 3. Подготовка данных
- •1. Определение и анализ требований к данным
- •2. Сбор данных
- •Определение необходимого количества данных
- •3. Предварительная обработка данных
- •Очистка данных
- •Этапы очистки данных
- •Выводы
- •Процесс Data Mining. Очистка данных
- •Инструменты очистки данных
- •Выводы по подготовке данных
- •Процесс Data Mining. Построение и использование модели
- •Моделирование
- •Виды моделей
- •Математическая модель
- •Этап 4. Построение модели
- •Этап 5. Проверка и оценка моделей
- •Этап 6. Выбор модели
- •Этап 7. Применение модели
- •Этап 8. Коррекция и обновление модели
- •Погрешности в процессе Data Mining
- •Выводы
- •Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
- •Организационные Факторы
- •Человеческие факторы. Роли в Data Mining
- •CRISP-DM методология
- •SEMMA методология
- •Другие стандарты Data Mining
- •Стандарт PMML
- •Стандарты, относящиеся к унификации интерфейсов
- •Рынок инструментов Data Mining
- •Поставщики Data Mining
- •Классификация инструментов Data Mining
- •Программное обеспечение Data Mining для поиска ассоциативных правил
- •Программное обеспечение для решения задач кластеризации и сегментации
- •Программное обеспечение для решения задач классификации
- •Программное обеспечение Data Mining для решения задач оценивания и прогнозирования
- •Выводы
- •Инструменты Data Mining. SAS Enterprise Miner
- •Обзор программного продукта
- •Графический интерфейс (GUI) для анализа данных
- •Инструментарий для углубленного интеллектуального анализа данных
- •Набор инструментов для подготовки, агрегации и исследования данных
- •Интегрированный комплекс разнообразных методов моделирования
- •Интегрированные средства сравнения моделей и пакеты результатов
- •Скоринг по модели и простота развертывания модели
- •Гибкость благодаря открытости и расширяемости
- •Встроенная стратегия обнаружения данных
- •Распределенная система интеллектуального анализа данных, ориентированная на крупные предприятия
- •Основные характеристики пакета SAS Enterprise Miner 5.1
- •Специализированное хранилище данных
- •Подход SAS к созданию информационно-аналитических систем
- •Технические требования пакета SASR Enterprise Miner
- •Инструменты Data Mining. Система PolyAnalyst
- •Архитектура системы
- •PolyAnalyst Workplace - лаборатория аналитика
- •Аналитический инструментарий PolyAnalyst
- •Модули для построения числовых моделей и прогноза числовых переменных
- •Алгоритмы кластеризации
- •Алгоритмы классификации
- •Алгоритмы ассоциации
- •Модули текстового анализа
- •Визуализация
- •Эволюционное программирование
- •Общесистемные характеристики PolyAnalyst
- •WebAnalyst
- •Инструменты Data Mining. Программные продукты Cognos и система STATISTICA Data Miner
- •Особенности методологии моделирования с применением Cognos 4Thought
- •Система STATISTICA Data Miner
- •Средства анализа STATISTICA Data Miner
- •Инструменты Oracle Data Mining и Deductor
- •Oracle Data Mining
- •Oracle Data Mining - функциональные возможности
- •Прогнозирующие модели
- •Краткая характеристика алгоритмов классификации
- •Регрессия
- •Поиск существенных атрибутов
- •Дескрипторные модели
- •Алгоритмы кластеризации
- •Аналитическая платформа Deductor
- •Поддержка процесса от разведочного анализа до отображения данных
- •Архитектура Deductor Studio
- •Архитектура Deductor Warehouse
- •Описание аналитических алгоритмов
- •Инструмент KXEN
- •Реинжиниринг аналитического процесса
- •Технические характеристики продукта
- •Предпосылки создания KXEN
- •Структура KXEN Analytic Framework Version 3.0
- •Технология IOLAP
- •Data Mining консалтинг
- •Data Mining-услуги
- •Работа с клиентом
- •Примеры решения
- •Техническое описание решения
- •Выводы
Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
Бизнес конкретной фирмы не является изолированным, он - часть рынка. Успешность бизнеса зависит не столько от того, как работает форма, сколько от того, как она работает в сравнении с подобными фирмами рынка. Существует множество различий, нас интересует одно из них - программное обеспечение или инструменты, которые используются для управления бизнесом и принятия решений.
Первый вопрос, который в связи с этим замечанием можно задать менеджеру: "Устраивает ли Вас то программное обеспечение, которое Вы используете для получения новых знаний о делах фирмы?". Если ответ "да", то, возможно, Вы не нуждаетесь в дополнительных инструментах. Но, возможно, у Вас есть вопросы, на которые Вы бы хотели получить ответы, например, почему некоторые Ваши клиенты перешли к конкурирующим фирмам. Ответ на этот и другие вопросы может дать инструмент Data Mining.
В предыдущих лекциях нами был рассмотрен процесс Data Mining с точки зрения этапов, которые должны быть пройдены для получения определенного знания и в итоге - для принятия наиболее верного решения.
Процесс Data Mining можно рассматривать с другой стороны, а именно, с точки зрения организационных и человеческих факторов, которые играют далеко не последнюю роль при внедрении проекта Data Mining.
Организационные Факторы
Когда в организации принято решение использовать Data Mining, первый вопрос, который возникает: "С чего начать?" После того как в организации принято решение использовать технологию Data Mining, необходимо потратить определенное время и усилия, чтобы подготовиться к этому. Необходимо создать определенную организационную окружающую среду.
Поток данных (flow of Data) в организации должен быть приспособлен к Data Mining [17], т.е. сотрудники должны быть заинтересованы в открытом сотрудничестве по обмену информацией. Особенно важно это во взаимодействии между бизнес-отделами и техническими отделами.
Рассмотрим два аспекта, касающихся организационных факторов процесса Data Mining: организационную культуру и деловую окружающую среду.
Чтобы сотрудники могли работать на максимально высоком уровне, организация должна обеспечить свободный поток нужной информации к тому сотруднику, которому она требуется, в четкие сроки и в правильной форме; только тогда возможно будет выработать своевременное оптимальное решение. Лидирующие компании обеспечивают это путем инвестиций в свою информационную инфраструктуру, которая поддерживает бизнеспроцессы предприятия [99].
234
Организационная культура подразумевает активное открытое сотрудничество по обмену информацией между отделами компании и ее сотрудниками.
Это особенно важно во взаимодействии между бизнес-отделами и техническими отделами. Люди должны желать принимать новую информацию и, на основе этого, изменять условия и методы своего труда. Если сотрудники скрывают или защищают свои данные и не желают активно участвовать в обмене информацией и создании новой информации, организация, скорее всего, будет нуждаться во внутреннем или внешнем консультировании для изменения этих фактов. Это всегда непростая задача, но это существенный фактор для достижения успехов при внедрении Data Mining.
Деловая Окружающая среда. Направлять Ваши действия по Data Mining должен бизнес. Руководители высшего звена должны быть заинтересованы во вложении средств в Data Mining, поскольку этот процесс всегда требует значительных затрат. Необходимо четкое понимание проблемы или задачи, которую нужно решить. В организации должна присутствовать готовность открыть доступ к данным и показателям, а также к другим аспектам деятельности.
Интеграция Data Mining в бизнес всегда означает интеграцию соответствующего инструмента в деловую среду организации.
Человеческие факторы. Роли в Data Mining
Человеческий фактор при внедрении Data Mining - это наличие и квалификационное соответствие специалистов, готовых работать с Data Mining.
Специалисты компании, вовлеченные в процесс Data Mining, исполняют одну из ролей, которые показаны на рис. 21.1: специалист предметной области, администратор баз данных, специалист по добыче данных.
Рис. 21.1. Роли в Data Mining
Роли между специалистами распределены следующим образом.
Специалист предметной области (Domain experts) - специалист, имеющий знания о окружении бизнеса, процессах, заказчиках, клиентах, потребителях, конкурентах, т.е. о предметной области.
235
Знания о предметной области включают факты, которые к данной области относятся, закономерности, характерные для нее, гипотезы о возможных связях между явлениями, процессами и фактами в ней, процедуры для решения типовых задач. Экспертные знания - это те знания, которыми располагает специалист в некоторой предметной области.
Администратор баз данных (Database administrator) - специалист, имеющий знания о том, где и каким образом хранятся данные, как получить к ним доступ и как связать между собой эти данные.
Администратор базы данных отвечает за выработку требований к базе данных, за ее проектирование, реализацию, эффективное использование и сопровождение.
Другими обязанностями администратора баз данных могут быть: определение статуса информации и статуса пользователей; модификация данных; обеспечение целостности данных; загрузка данных и ведение БД; защита данных; обеспечение восстановления баз данных; сбор и статистическая обработка обращений к БД; анализ эффективности функционирования базы данных.
Специалист по добыче данных (Mining specialists) - специалист по анализу данных, который имеет, как минимум, основы статистических знаний.
Этот специалист должен быть способен применять технологии Data Mining и интерпретировать полученные результаты. Он должен уметь устанавливать связи со специалистом по предметной области для управления полученными результатами и с администратором БД для получения доступа к данным в запрос на свои действия.
Специалист по добыче данных ответственен за получение необходимых для Data Mining сведений из различных источников, а также за получение информации от специалистов в данной предметной области. Специалист по добыче данных должен быть также своего рода постановщиком задач. Он должен уметь получать необходимую информацию и входные данные для Data Mining-системы у специалистов по предметной области, задавать вопросы с целью уточнения сведений и т.д.
Первые две роли из описанных выше в том или ином виде присутствуют в любой компании. Третья роль в первое время внедрения Data Mining может исполняться консультантом другой компании. После приобретения соответствующих знаний, это место может занять человек из Вашей компании, например - маркетинговый аналитик.
Одной из основных трудностей при выборе специалистов либо внутри Вашей организации, либо сторонних консультантов является разнообразие областей, которые должны быть объединены в одном процессе. Процесс Data Mining требует наличия связей между бизнесом, анализом и информационными технологиями, чтобы обеспечить непрерывный двунаправленный поток информации (данные - информация - решения), который был рассмотрен в одной из начальных лекций курса.
Три роли, рассмотренные выше, являются основными, и без них процесс Data Mining не может быть осуществлен. Часто в процесс также вовлечены другие специалисты по информационным технологиям и менеджеры проектов.
Среди них могут быть:
236
∙менеджер проектов (Project Manager);
∙специалист по IT Архитектуре (IT Architect);
∙специалист по Архитектуре Решений (Solution Architect);
∙специалист по Архитектуре Данных (Data Architect);
∙специалист по Моделированию данных (Data Modeler);
∙эксперт Data Mining (Data Mining Expert);
∙деловой Аналитик (Business Analyst).
Каждая из этих ролей может быть отведена специалисту внутри организации либо стороннему специалисту. Процесс найма третьих лиц, т.е. сторонних специалистов для выполнения определенных работ, называют аутсорсингом (outsourcing). Воспользовавшись услугами приглашенных специалистов, компании могут добиться существенного уменьшения затрат на оплату труда. О других преимуществах аутсорсинга для Data Mining будет рассказано в следующем разделе курса.
Роли Data Mining, в зависимости от конечной цели работ, распределяются следующим образом:
∙исследователи (написание исследовательских докладов и статей);
∙практикующие аналитики (решение реальных и практических задач анализа данных);
∙разработчики программного обеспечения (написание Data Miningпрограммного обеспечения);
∙студенты (в настоящее время обучающиеся в учебных заведениях);
∙бизнес-аналитики (главным образом, оценивающие результаты использования data mining);
∙менеджеры (управляют одним или большим количеством проектов);
∙другие.
Согласно последним опросам на KDnuggets, наибольшее число из голосующих - это практикующие аналитики, использующие технологию Data Mining для анализа реальных данных (34%), и исследователи (19%), далее идут студенты, бизнес-аналитики, разработчики программного обеспечения и менеджеры.
Теперь мы рассмотрим процесс Data Mining в разрезе работ, выполняемых описанными выше специалистами, коснемся распределения их обязанностей, укажем, где эти работы пересекаются в процессе достижения бизнес-цели.
Напомним, что процесс Data Mining практически никогда не является линейным, в большинстве случаев это итеративный циклический процесс. Именно итеративность гарантируют процессу Data Mining такой результат, который будет адаптирован под решение конкретной задачи.
Процесс Data Mining, с точки зрения человеческого фактора, является постоянным взаимодействием трех основных специалистов.
Взаимодействие специалиста по добыче данных и специалиста по предметной области осуществляется в двух точках соприкосновения (не забываем при этом, что Data Mining - итеративный процесс).
Первая точка - анализ предметной области, где определяются задачи и требования к будущей системе. Специалист по добыче данных должен вникнуть в предметную область,
237