- •Что такое Data Mining?
- •Понятие Статистики
- •Понятие Машинного обучения
- •Понятие Искусственного интеллекта
- •Сравнение статистики, машинного обучения и Data Mining
- •Развитие технологии баз данных
- •Понятие Data Mining
- •Data Mining как часть рынка информационных технологий
- •Классификация аналитических систем
- •Мнение экспертов о Data Mining
- •Отличия Data Mining от других методов анализа данных
- •Перспективы технологии Data Mining
- •Существующие подходы к анализу
- •Данные
- •Что такое данные?
- •Набор данных и их атрибутов
- •Измерения
- •Шкалы
- •Типы наборов данных
- •Данные, состоящие из записей
- •Графические данные
- •Химические данные
- •Форматы хранения данных
- •Базы данных. Основные положения
- •Системы управления базами данных, СУБД
- •Классификация видов данных
- •Метаданные
- •Методы и стадии Data Mining
- •Классификация стадий Data Mining
- •Сравнение свободного поиска и прогностического моделирования с точки зрения логики
- •Классификация методов Data Mining
- •Классификация технологических методов Data Mining
- •Свойства методов Data Mining
- •Задачи Data Mining. Информация и знания
- •Задачи Data Mining
- •Классификация задач Data Mining
- •Связь понятий
- •От данных к решениям
- •От задачи к приложению
- •Информация
- •Свойства информации
- •Требования, предъявляемые к информации
- •Знания
- •Сопоставление и сравнение понятий "информация", "данные", "знание"
- •Задачи Data Mining. Классификация и кластеризация
- •Задача классификации
- •Процесс классификации
- •Методы, применяемые для решения задач классификации
- •Точность классификации: оценка уровня ошибок
- •Оценивание классификационных методов
- •Задача кластеризации
- •Оценка качества кластеризации
- •Процесс кластеризации
- •Применение кластерного анализа
- •Кластерный анализ в маркетинговых исследованиях
- •Практика применения кластерного анализа в маркетинговых исследованиях
- •Выводы
- •Задачи Data Mining. Прогнозирование и визуализация
- •Задача прогнозирования
- •Сравнение задач прогнозирования и классификации
- •Прогнозирование и временные ряды
- •Тренд, сезонность и цикл
- •Точность прогноза
- •Виды прогнозов
- •Методы прогнозирования
- •Задача визуализации
- •Плохая визуализация
- •Сферы применения Data Mining
- •Применение Data Mining для решения бизнес-задач
- •Банковское дело
- •Страхование
- •Телекоммуникации
- •Электронная коммерция
- •Промышленное производство
- •Маркетинг
- •Розничная торговля
- •Фондовый рынок
- •Применение Data Mining в CRM
- •Исследования для правительства
- •Data Mining для научных исследований
- •Биоинформатика
- •Медицина
- •Фармацевтика
- •Молекулярная генетика и генная инженерия
- •Химия
- •Web Mining
- •Text Mining
- •Call Mining
- •Основы анализа данных
- •Анализ данных в Microsoft Excel
- •Описательная статистика
- •Центральная тенденция
- •Свойства среднего
- •Некоторые свойства медианы
- •Характеристики вариации данных
- •Корреляционный анализ
- •Коэффициент корреляции Пирсона
- •Регрессионный анализ
- •Последовательность этапов регрессионного анализа
- •Задачи регрессионного анализа
- •Выводы
- •Методы классификации и прогнозирования. Деревья решений
- •Преимущества деревьев решений
- •Процесс конструирования дерева решений
- •Критерий расщепления
- •Большое дерево не означает, что оно "подходящее"
- •Остановка построения дерева
- •Сокращение дерева или отсечение ветвей
- •Алгоритмы
- •Алгоритм CART
- •Алгоритм C4.5
- •Разработка новых масштабируемых алгоритмов
- •Выводы
- •Методы классификации и прогнозирования. Метод опорных векторов. Метод "ближайшего соседа". Байесовская классификация
- •Метод опорных векторов
- •Линейный SVM
- •Метод "ближайшего соседа" или системы рассуждений на основе аналогичных случаев
- •Преимущества метода
- •Недостатки метода "ближайшего соседа"
- •Решение задачи классификации новых объектов
- •Решение задачи прогнозирования
- •Оценка параметра k методом кросс-проверки
- •Байесовская классификация
- •Байесовская фильтрация по словам
- •Методы классификации и прогнозирования. Нейронные сети
- •Элементы нейронных сетей
- •Архитектура нейронных сетей
- •Обучение нейронных сетей
- •Модели нейронных сетей
- •Персептрон
- •Программное обеспечение для работы с нейронными сетями
- •Пример решения задачи
- •Пакет Matlab
- •Нейронные сети. Самоорганизующиеся карты Кохонена.
- •Классификация нейронных сетей
- •Подготовка данных для обучения
- •Выбор структуры нейронной сети
- •Карты Кохонена
- •Самоорганизующиеся карты (Self-Organizing Maps, SOM)
- •Задачи, решаемые при помощи карт Кохонена
- •Обучение сети Кохонена
- •Пример решения задачи
- •Карты входов
- •Выводы
- •Методы кластерного анализа. Иерархические методы
- •Методы кластерного анализа
- •Иерархические методы кластерного анализа
- •Меры сходства
- •Методы объединения или связи
- •Иерархический кластерный анализ в SPSS
- •Пример иерархического кластерного анализа
- •Определение количества кластеров
- •Методы кластерного анализа. Итеративные методы.
- •Алгоритм k-средних (k-means)
- •Описание алгоритма
- •Проверка качества кластеризации
- •Алгоритм PAM ( partitioning around Medoids)
- •Предварительное сокращение размерности
- •Факторный анализ
- •Итеративная кластеризация в SPSS
- •Процесс кластерного анализа. Рекомендуемые этапы
- •Сложности и проблемы, которые могут возникнуть при применении кластерного анализа
- •Сравнительный анализ иерархических и неиерархических методов кластеризации
- •Новые алгоритмы и некоторые модификации алгоритмов кластерного анализа
- •Алгоритм BIRCH (Balanced Iterative Reducing and Clustering using Hierarchies)
- •Алгоритм WaveCluster
- •Алгоритм CLARA (Clustering LARge Applications)
- •Алгоритмы Clarans, CURE, DBScan
- •Методы поиска ассоциативных правил
- •Часто встречающиеся приложения с применением ассоциативных правил:
- •Введение в ассоциативные правила
- •Часто встречающиеся шаблоны или образцы
- •Поддержка
- •Характеристики ассоциативных правил
- •Границы поддержки и достоверности ассоциативного правила
- •Методы поиска ассоциативных правил
- •Разновидности алгоритма Apriori
- •AprioriTid
- •AprioriHybrid
- •Пример решения задачи поиска ассоциативных правил
- •Визуализатор "Правила"
- •Способы визуального представления данных. Методы визуализации
- •Визуализация инструментов Data Mining
- •Визуализация Data Mining моделей
- •Методы визуализации
- •Представление данных в одном, двух и трех измерениях
- •Представление данных в 4 + измерениях
- •Параллельные координаты
- •"Лица Чернова"
- •Качество визуализации
- •Представление пространственных характеристик
- •Основные тенденции в области визуализации
- •Выводы
- •Комплексный подход к внедрению Data Mining, OLAP и хранилищ данных в СППР
- •Классификация СППР
- •OLAP-системы
- •OLAP-продукты
- •Интеграция OLAP и Data Mining
- •Хранилища данных
- •Преимущества использования хранилищ данных
- •Процесс Data Mining. Начальные этапы
- •Этап 1. Анализ предметной области
- •Этап 2. Постановка задачи
- •Этап 3. Подготовка данных
- •1. Определение и анализ требований к данным
- •2. Сбор данных
- •Определение необходимого количества данных
- •3. Предварительная обработка данных
- •Очистка данных
- •Этапы очистки данных
- •Выводы
- •Процесс Data Mining. Очистка данных
- •Инструменты очистки данных
- •Выводы по подготовке данных
- •Процесс Data Mining. Построение и использование модели
- •Моделирование
- •Виды моделей
- •Математическая модель
- •Этап 4. Построение модели
- •Этап 5. Проверка и оценка моделей
- •Этап 6. Выбор модели
- •Этап 7. Применение модели
- •Этап 8. Коррекция и обновление модели
- •Погрешности в процессе Data Mining
- •Выводы
- •Организационные и человеческие факторы в Data Mining. Стандарты Data Mining
- •Организационные Факторы
- •Человеческие факторы. Роли в Data Mining
- •CRISP-DM методология
- •SEMMA методология
- •Другие стандарты Data Mining
- •Стандарт PMML
- •Стандарты, относящиеся к унификации интерфейсов
- •Рынок инструментов Data Mining
- •Поставщики Data Mining
- •Классификация инструментов Data Mining
- •Программное обеспечение Data Mining для поиска ассоциативных правил
- •Программное обеспечение для решения задач кластеризации и сегментации
- •Программное обеспечение для решения задач классификации
- •Программное обеспечение Data Mining для решения задач оценивания и прогнозирования
- •Выводы
- •Инструменты Data Mining. SAS Enterprise Miner
- •Обзор программного продукта
- •Графический интерфейс (GUI) для анализа данных
- •Инструментарий для углубленного интеллектуального анализа данных
- •Набор инструментов для подготовки, агрегации и исследования данных
- •Интегрированный комплекс разнообразных методов моделирования
- •Интегрированные средства сравнения моделей и пакеты результатов
- •Скоринг по модели и простота развертывания модели
- •Гибкость благодаря открытости и расширяемости
- •Встроенная стратегия обнаружения данных
- •Распределенная система интеллектуального анализа данных, ориентированная на крупные предприятия
- •Основные характеристики пакета SAS Enterprise Miner 5.1
- •Специализированное хранилище данных
- •Подход SAS к созданию информационно-аналитических систем
- •Технические требования пакета SASR Enterprise Miner
- •Инструменты Data Mining. Система PolyAnalyst
- •Архитектура системы
- •PolyAnalyst Workplace - лаборатория аналитика
- •Аналитический инструментарий PolyAnalyst
- •Модули для построения числовых моделей и прогноза числовых переменных
- •Алгоритмы кластеризации
- •Алгоритмы классификации
- •Алгоритмы ассоциации
- •Модули текстового анализа
- •Визуализация
- •Эволюционное программирование
- •Общесистемные характеристики PolyAnalyst
- •WebAnalyst
- •Инструменты Data Mining. Программные продукты Cognos и система STATISTICA Data Miner
- •Особенности методологии моделирования с применением Cognos 4Thought
- •Система STATISTICA Data Miner
- •Средства анализа STATISTICA Data Miner
- •Инструменты Oracle Data Mining и Deductor
- •Oracle Data Mining
- •Oracle Data Mining - функциональные возможности
- •Прогнозирующие модели
- •Краткая характеристика алгоритмов классификации
- •Регрессия
- •Поиск существенных атрибутов
- •Дескрипторные модели
- •Алгоритмы кластеризации
- •Аналитическая платформа Deductor
- •Поддержка процесса от разведочного анализа до отображения данных
- •Архитектура Deductor Studio
- •Архитектура Deductor Warehouse
- •Описание аналитических алгоритмов
- •Инструмент KXEN
- •Реинжиниринг аналитического процесса
- •Технические характеристики продукта
- •Предпосылки создания KXEN
- •Структура KXEN Analytic Framework Version 3.0
- •Технология IOLAP
- •Data Mining консалтинг
- •Data Mining-услуги
- •Работа с клиентом
- •Примеры решения
- •Техническое описание решения
- •Выводы
свершившиеся факты; она является точной. Прогнозная информация является рассчитываемой или предполагаемой, поэтому ее нельзя считать точной, она может иметь определенную погрешность.
Знания
Знания - совокупность фактов, закономерностей и эвристических правил, с помощью которых решается поставленная задача.
Итак, формирование информации происходит в процессе сбора и передачи, т.е. обработки данных. Каким же образом из информации получают знания?
Все чаще истинные знания образуются на основе распределенных взаимосвязей разнородной информации [19]. Когда информация собрана и передана для получения явно не определенного заранее результата, то вы получаете знания. Сама по себе информация в чистом виде бессмысленна. Отсюда следует вывод, что информация - это чье-то тактическое знание, передаваемое в виде символов и при помощи каких-либо прикладных средств.
По определению Денхема Грэя, "знания - это абсолютное использование информации и данных, совместно с потенциалом практического опыта людей, способностями, идеями, интуицией, убежденностью и мотивациями".
Знания имеют определенные свойства, которые отличают их от информации [20].
1.Структурированность. Знания должны быть "разложены по полочкам".
2.Удобство доступа и усвоения. Для человека - это способность быстро понять и запомнить или, наоборот, вспомнить; для компьютерных знаний - средства доступа к знаниям.
3.Лаконичность. Лаконичность позволяет быстро осваивать и перерабатывать знания и повышает "коэффициент полезного содержания". В данный список лаконичность была добавлена из-за всем известной проблемы шума и мусорных документов, характерной именно для компьютерной информации - Internet и электронного документооборота.
4.Непротиворечивость. Знания не должны противоречить друг другу.
5.Процедуры обработки. Знания нужны для того, чтобы их использовать. Одно из главных свойств знаний - возможность их передачи другим и способность делать выводы на их основе. Для этого должны существовать процедуры обработки знаний. Способность делать выводы означает для машины наличие процедур обработки и вывода и подготовленность структур данных для такой обработки, т.е. наличие специальных форматов знаний.
Сопоставление и сравнение понятий "информация", "данные", "знание"
Для того чтобы уверенно оперировать понятиями "информация", "данные", "знание", необходимо не только понимать суть этих понятий, но и прочувствовать отличия между ними. Однако, одной интуитивной интерпретации этих понятий здесь недостаточно. Сложность понимания отличий вышеупомянутых понятий - в их кажущейся синонимичности. Вспомним, что понятие Data Mining переводится на русский язык при помощи этих же трех понятий: как добыча данных, извлечение информации, раскопка знаний.
48
Для того чтобы прочувствовать разницу, рассмотрим применение этих трех понятий на простом примере.
Для начала сделаем попытку разобраться в этих терминах на простых примерах.
1.Студент, который сдает экзамен, нуждается в данных.
2.Студент, который сдает экзамен, нуждается в информации.
3.Студент, который сдает экзамен, нуждается в знаниях.
При рассмотрении первого варианта - студент нуждается в данных - возникает мысль, что студенту нужны данные, например, для вычислений. Информацией во втором варианте может выступать конспект или учебник. В результате их использования студент получает лишь информацию, которая в определенных случаях может перейти в знания. Третий вариант звучит наиболее логично.
Информация, в отличие от данных, имеет смысл.
Понятия "информация" и "знания", с философской точки зрения, являются понятиями более высокого уровня, чем "данные", которое возникло относительно недавно.
Понятие "информации" непосредственно связано с сущностью процессов внутри информационной системы, тогда так понятие "знание" скорее ориентировано на качество процессов. Понятие "знание" тесно связано с процессом принятия решений.
Несмотря на различия, рассмотренные понятия, как уже отмечалось ранее, не являются разрозненными и несвязанными. Они есть часть одного потока: у истока его находятся данные, в процессе передачи которых возникает информация, и в результате использования информации, при определенных условиях, возникают знания.
В лекции уже отмечалось, что в процессе движения вверх по информационной пирамиде объемы данных переходят в ценность знаний. Однако большие объемы данных вовсе не означают и, тем более, не гарантируют получение знаний. Существует определенная зависимость ценности полученных знаний от качества и мощности процедур обработки данных. Типичным примером информации, которую нельзя превратить в знание, является текст на иностранном языке. При отсутствии словаря и переводчика эта информация вообще не имеет ценности, она не может перейти в знание. При наличии словаря процесс перехода от информации к знанию возможен, но длителен и трудоемок. При наличии переводчика информация действительно переходит в знания.
Таким образом, для получения ценных знаний необходимы качественные процедуры обработки. Процесс перехода от данных к знаниям занимает много времени и стоит дорого. Поэтому очевидно, что технология Data Mining с ее мощными и разнообразными алгоритмами является инструментом, при помощи которого, продвигаясь вверх по информационной пирамиде, мы можем получать действительно качественные и ценные знания.
49