Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
лекции ИС / системы поиска знаний (KDD).doc
Скачиваний:
52
Добавлен:
26.05.2015
Размер:
420.35 Кб
Скачать

3.1. От сырых данных к полезным решениям

Мы рассмотрели основные типы задач, которые решаются различными методами KDD. Есть методы KDD, которые применимы к разным задачам, есть методы, которые ориентированы на применение в каком-либо одном типе задач из рассмотренных. Теперь мы расскажем об основных этапах, или шагах, которые, как правило, входят в любое исследование данных с помощью методов KDD, рассмотрим основной цикл добычи нового знания и оценки его ценности (рис. 4). Некоторые из этих шагов могут в отдельных задачах отсутствовать или быть как-то редуцированы, но, в основном, все они необходимы и так или иначе присутствуют.

  • Первый этап, по сути предшествующий анализу данных методами KDD, состоит в приведении данные к форме, пригодной для применения конкретных реализаций систем KDD. Представим, что у нас есть, скажем, тексты, и мы хотим построить автоматический рубрикатор, автоматический классификатор каких-либо аннотаций, описаний болезней и т.д. Данная нам сырая информация представляет собой тексты в электронном виде, но практически ни одна из существующих систем KDD не может работать непосредственно с текстами. Чтобы работать с текстами, мы должны из исходной текстовой информации предварительно получить некие производные параметры. Например, частоту встречаемости ключевых слов, среднюю длину предложений, параметры, характеризующие сочетаемость тех или иных слов в предложении и т.д. Короче говоря, мы должны, выработать некий четкий набор числовых или нечисловых параметров, характеризующих данный текст. Эта задача наименее автоматизирована в том смысле, что выбор системы этих параметров производится человеком, хотя, конечно, значения параметров могут вычисляться автоматически в рамках определенной технологии первичной обработки данных. После выбора описывающих параметров изучаемые данные могут быть представлены в виде прямоугольной таблицы, где каждая строка представляет собой отдельный случай, объект или состояние изучаемого объекта, а каждая колонка - параметры, свойства или признаки всех исследуемых объектов. Строки подобной таблицы в теории KDD, как и в теории баз данных принято называть записями, а колонки - полями. Практически все имеющиеся системы KDD работают только с подобными прямоугольными таблицами.

  • Полученная прямоугольная таблица пока еще является слишком сырым материалом для применения методов KDD, и входящее в нее данные необходимо предварительно обработать. Во-первых, таблица может содержать параметры, имеющие одинаковые значения для всей колонки. Если бы исследуемые объекты характеризовались только такими признаками, все исследуемые объекты были бы абсолютно идентичны, значит эти признаки никак не индивидуализировали бы исследуемые объекты. Значит, их надо исключить из анализа. Или в таблице имеется некоторый категориальный признак, такой, что во всех записях его значения различны. Ясно, что мы никак не можем использовать это поле в нашем анализе данных, и его надо исключить. Наконец, просто этих полей может быть очень много, и если мы все их включим в исследование, то это сильно увеличит время счета, поскольку практически для всех методов KDD характерна сильная зависимость времени счета от количества параметров (не менее чем квадратичная, а нередко и экспоненциальная). В то же время зависимость времени счета от количества записей линейна или близка к линейной. Поэтому в качестве предобработки данных необходимо, во-первых, выделить то множество признаков, которые наиболее важны в контексте данного исследования, отбросить явно неприменимые из-за константности или чрезмерной вариабельности и выделить те, которые наиболее вероятно войдут в искомую зависимость. Для этого, как правило, используются статистические методы, основанные на применении корреляционного анализа, линейных регрессий и т.д., т.е. методы, позволяющие быстро, хотя и приближенно оценить влияние одного параметра на другой.

Мы обсудили "очистку" данных по столбцам таблицы, по признакам. Точно также необходимо бывает провести предварительную очистку данных по строкам таблицы, по записям. Любая реальная база данных обычно содержит ошибки, очень неточно определенные значения, записи, соответствующие каким-то редким, исключительным ситуациям, и другие дефекты, которые могут резко понизить эффективность методов KDD, применяемых на следующих этапах анализа. Такие записи необходимо отбросить. Даже если такие "выбросы" не являются ошибками, а представляют собой редкие исключительные ситуации, они все равно вряд ли могут быть использованы, поскольку по нескольким точкам статистически значимо судить о искомой зависимости невозможно. Эта предварительная обработка, или препроцессинг данных, и составляет второй этап.

  • Третий этап - это собственно применение методов KDD. Сценарии этого применения могут быть самыми различными и включать сложную комбинацию разных методов, особенно если используемые методы позволяют проанализировать данные с разных точек зрения. Собственно этот этап исследования и принято называть data mining (дословно, "разработка данных"). Следующие разделы посвящены более детальному рассмотрению этих методов.

  • Следующий этап - верификация и проверка получившихся результатов. Очень простой и часто используемый способ заключается в том, что все имеющиеся данные, которые мы собираемся анализировать, мы разбиваем на две группы. Как правило, одна из них - большего размера, другая - меньшего. На большей группе мы, применяя те или иные методы KDD, получаем модели, зависимости, все что требуется в нашей задаче, а на меньшей группе данных мы их проверяем. И по разнице в точности между тестовой группой и группой, использованной для обучения, мы можем судить, насколько адекватна, статистически значима построенная модель. Существует много других, более сложных способов верификациии, таких как перекрестная проверка, бутстреп и др., которые позволяют оценить значимость выводимых моделей без разбиения данных на две группы. Ниже мы рассмотрим эти методы немного подробнее.

  • Наконец, пятый этап - это интерпретация автоматически полученных знаний человеком в целях их использования для принятия решений, добавление получившихся правил и зависимостей в базы знаний и т.д. Пятый этап часто подразумевает использование методов, находящихся на стыке технологии KDD и технологии экспертных систем. От того, насколько эффективным он будет, в значительной степени зависит успех решения поставленной задачи.

Рассмотренным этапом и завершается цикл KDD в строгом смысле этого слова. Окончательная оценка ценности добытого нового знания выходит за рамки анализа, автоматизированного или традиционного, и может быть проведена только после претворения в жизнь решения, принятого на основе добытого знания, после проверки нового знания практикой. Исследование практических результатов, достигнутых с помощью нового знания, завершает оценку ценности добытого средствами KDD нового знания (рис. 4).

Рис. 4. Расширенный цикл автоматизированного интеллектуального анализа баз данных и оценки обнаруженного нового знания