- •Лекции по курсу «Системы обработки экономической информации»
- •Тема 1. Общее представление о Data Mining
- •1. Что такое Data Mining
- •2. Области использования Data Mining
- •3. Типы закономерностей
- •Классы систем Data Mining
- •Тема «Документальные (полнотекстовые) системы данных и знаний»
- •1. Назначение и основные понятия
- •Общая функциональная структура дипс
- •3. Формальное представление смыслового содержания текста
- •Тема «Обработка и поиск текстовой информации»
- •Обработка входящей текстовой информации
- •Поиск текстовой информации
- •Эффективность дипс
- •1. Обработка входящей текстовой информации
- •2. Поиск текстовой информации
- •Оценка качества дипс
- •Тема «знания и их представление»
- •Понятие о знании
- •Логические модели
- •3. Продукционные модели
- •4. Фреймовая модель представления знаний
- •5.Семантические сети
- •Тема «Особенности обработки информации у человека»
- •1. Основные понятия
- •2. Конструкт как единица мыслительной деятельности
- •3. Понятие как единица мыслительной деятельности
- •4. Мысленные модели
- •5. Когнитивные модели.
- •6. Объектно-схемные или качественные модели.
- •7. Синтез моделей с различными уровнями семантики и формализации
- •Тема «Нейросети»
- •Назначение и основные понятия
- •Одиночный нейрон
- •Простые нейросети
- •Назначение и основные понятия
- •2. Структура нейросетей
- •Тема «Нейросети»
- •1. Методы обучения нейронных сетей
- •2. Модель нейронной сети с обратным распространением ошибки
- •1. Методы обучения нейронных сетей
- •Применение нейросетей
- •1) Общая характеристика нейросетевых технологий
- •2 Классы решаемых задач
- •3) Области использования нейросетей
- •Общая характеристика нейросетевых технологий
- •2. Классы решаемых задач
- •3. Области использования нейросетей
- •Тема «Генетические алгоритмы»
- •Классы задач оптимизации
- •Методы решения оптимизационных задач
- •Эволюционные вычисления
- •Основы теории генетических алгоритмов
- •Решение задач с помощью генетических алгоритмов
- •Генетические алгоритмы и нейросети
- •Тема «Метод группового учета аргументов»
- •Особенности моделирования экономических систем
- •Идеология и использование мгуа
- •Общее описание метода мгуа
- •Особенности моделирования экономических систем
- •Идеология и использование мгуа
- •Общее описание метода мгуа
- •Вопросы к 1 модулю «Системы обработки экономической информации»
- •1. Что такое Data Mining
- •Области использования Data Mining
- •Классы систем Data Mining
Лекции по курсу «Системы обработки экономической информации»
Тема 1. Общее представление о Data Mining
Вопросы:
Что такое Data Mining
Области использования Data Mining
Типы закономерностей
Классы систем Data Mining
1. Что такое Data Mining
С развитием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях- коммерции, производстве, науке, медицине и т.д. Стало понятно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.
Методов традиционной статистики оказалась явно недостаточно для качественного анализа больших объемов данных.
Главная причина – недостаточность концепции усреднения по выборке для поиска неизвестных закономерностей. Методы статистики оказались полезными главным образом для проверки заранее сформулированных гипотез и для грубого разведочного анализа, составляющего основу оперативной аналитической обработки данных (OLAP).
В основу современной технологии Data Mining положена концепция шаблонов (паттернов), отражающих фрагменты многоаспектных отношений в данных. Поиск шаблонов производится методами, не ограниченными рамками априорных предположений (как это делается в статистике) о структуре распределения и виде распределения значений анализируемых показателей.
Примеры характерных различий между традиционной статистикой (OLAP) и Data Mining приведены в таблице 1.
OLAP (статистика) |
Data Mining |
Каковы средние показатели травматизма для курящих и некурящих?
Какова средняя величина ежедневных покупок по украденной и не украденной кредитной карточке? |
Встречаются ли точные шаблоны в описаниях людей, подверженных повышенному травматизму? Существуют ли стереотипные схемы покупок для случаев мошенничества с кредитными карточками? |
Важная особенность Data Mining – нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания. Сырые данные (raw knowledge) содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.
Сущность Data Mining можно определить следующими положениями:
Data Mining – это процесс обнаружения в сырых данных:
ранее неизвестных;
нетривиальных;
практически полезных;
доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
2. Области использования Data Mining
Методы Data Mining могут использоваться практически во всех областях человеческой деятельности. Однако наибольшее распространение они получили:
В торговле:
анализ покупательской корзины с целью выяснения товаров, которые покупатели стремятся приобрести вместе;
исследование временных шаблонов и создание прогнозирующих моделей с целью оптимизации запасов.
В банковском деле:
для выявления мошенничества с кредитными карточками;
сегментации клиентов;
прогнозирования изменений клиентуры.
Специальные приложения:
медицина – для создания экспертных систем по постановке медицинских диагнозов;
молекулярная генетика и генная инженерия: для расшифровки генома человека и наследственных заболеваний;
прикладная химия – для анализа высокомолекулярных соединений и создания соединений с требуемыми свойствами: лекарства, парфюмерия и т.д.