Скачиваний:
119
Добавлен:
01.05.2014
Размер:
415.74 Кб
Скачать

Предисловие

Проблема обработки данных весьма актуальна и в настоящий момент представляет собой обширную и даже, в некоторой степени, труднообозримую отрасль человеческого знания. В значительной мере это объясняется тем, что проблема обработки данных возникает на стыке различных областей научного и инженерного знания, многие из которых испытали и испытывают в настоящее время бурный подъем. Тем не менее, несмотря на сравнительно небольшой срок существования проблемы обработки данных как самостоятельной научной отрасли, можно уже говорить об общепринятых, "классических" методах, владение которыми предполагается у каждого специалиста по обработке данных.

Литература по методам обработки данных весьма обширна и постоянно пополняется, так как предлагаются новые и вновь интерпретируются известные задачи обработки, разрабатываются новые методы и алгоритмы. Изложенный здесь подход к проблеме обработки данных не претендует на полноту охвата, а понимается прежде всего как логически связанное изложение основных понятий обработки данных и некоторых основных методов обработки. Главная цель состоит в том, чтобы дать постановки некоторых основных задач обработки данных в современном и, как кажется, устоявшемся их понимании, и методов их решения в виде алгоритмов.

Совершенно очевидно, что невозможно в небольшой работе дать исчерпывающий обзор задач обработки и методов их решения. Поэтому, в заключении к каждой главе дается краткий обзор затронутых в ней вопросов и их место в общей проблематике главы. Каждая глава сопровождается вопросами для самопроверки, где звездочками отмечены вопросы повышенной трудности. Ответы на них, как правило, требуют более глубокого знакомства с материалом. В контексте данной работы к вопросам повышенной трудности относятся те, при ответе на которые требуются или развернутые ответы (например, изложение постановки задачи), или более тщательная проработка основного материала (например, чтобы уяснить детали работы алгоритма или построить рабочий алгоритм по приведенной общей схеме), или самостоятельная проработка дополнительного материала по литературе (например, из-за краткости изложения в данной работе).

Такой подход, в итоге, позволит лучше ориентироваться в проблематике обработки данных и предоставит в распоряжение даже начинающего специалиста по обработке данных некоторый минимальный набор алгоритмов, позволяющих ему грамотно и корректно решать собственные практические задачи. Думается, что такой подход вызовет понимание и у опытных специалистов, а затронутая проблематика привлечет внимание всех, кто интересуется обработкой данных.

5

1. Введение в анализ данных

    1. Проблема обработки данных

Современное состояние человеческого общества характеризуется высоким развитием уровня техники, сложностью используемых технологических процессов, эффективностью различных видов связи и коммуникаций. Поэтому в целом состояние человеческого общества характеризуется наличием интенсивных потоков информации, которые воздействуют на составные части и элементы структуры человеческой цивилизации, и связывают их в единое целое. В 60-х годах XX века появился термин "информационный взрыв", смысл которого состоит в том, что бурное развитие техники, технологии и связи привело к необходимости обрабатывать информацию (или данные) такого большого объема и в такие ограниченные сроки по времени, что требуемая скорость переработки информации и принятия решений в ряде случаев оказалась на пределе человеческих возможностей.

С другой стороны, научный прогресс достиг стадии развития, когда фундаментальные естественнонаучные закономерности были открыты и исследованы, а новые взгляды на природу оказались столь сложны, что организация исследований и разработка теории стали решаться лишь на уровне больших исследовательских коллективов. Ярким примером служит кризис физической теории в начале XX века и последующее ее развитие.

С практическим применением ЭВМ возникла возможность в первую очередь резко ускорить процесс переработки информации. Это сразу перевело в разряд практических многие теоретические задачи, исследование которых ранее было просто невозможно из-за большого объема вычислений. Ориентация на вычисления с помощью ЭВМ дала толчок новому этапу в развитии различных разделов научной теории и, прежде всего, вычислительной математики. Использование ЭВМ позволило справиться не только с большим объемом вычислений, но и с большим объемом поступающих на простую обработку данных. Тем самым снималась угроза "информационного взрыва" и в обычной, ненаучной жизни человеческого общества.

В свою очередь, совершенствование математических методов обработки экспериментальных данных в направлении увеличения их объема и скорости их обработки с одной стороны, и все более сильная интеграция и взаимосвязь различных составных частей структуры человеческого общества с другой стороны, привели к использованию математических методов обработки данных не только в технических областях, но и в нетрадиционных сферах - медицине, биологии, экономике, экологии, социологии.

Возросшая сложность процессов в технике и технологии, сложность научных теорий и большая интенсивность информационных потоков в современном обществе привели к необходимости учитывать как можно больше информации об изучаемом явлении для того,

6

чтобы адекватно описать его с учетом всей совокупности взаимосвязей и мешающих

воздействий. Такая необходимость приводит к тому, что в ходе экспериментов приходится

накапливать большие объемы информации или, другими словами, большие массивы данных, а также применять специальные методы их обработки. В связи с необходимостью обработки больших массивов экспериментальных данных исследователи обратили внимание на следующие обстоятельства, которым раньше просто не придавали значения.

Во-первых, экспериментальные данные, как правило, не содержат в явном виде информации о наиболее существенных свойствах изучаемого явления. Как правило, экспериментальные данные накапливаются при измерении некоторых величин на объекте исследования. В то же время наиболее существенные свойства изучаемого явления оказываются, как правило, его внутренними, глубинными характеристиками, недоступными для непосредственного измерения. Такие свойства принято называть факторами. Приведем классический пример.

В психологии при оценке уровня развития личности вычисляется так называемый коэффициент умственного развития (коэффициент интеллекта КИ). Очевидно, что КИ не является физической величиной, которую можно непосредственно измерить в ходе эксперимента. Поэтому испытуемый выполняет ряд тестов, во время которых фиксируются, т.е. измеряются, значения таких физических величин, как скорость реакции, правильность решения, оптимальность выбранного варианта и т.д. Совершенно очевидно, что совокупность таких значений, зафиксированных в ходе психологического эксперимента, лишь косвенным образом характеризует интеллектуальные возможности испытуемого. Для оценки КИ требуется теория, объясняющая зависимость его значения от измеренных величин и дающая формулу его вычисления.

В итоге оказалось, что такая ситуация характерна для исследований в самых разных областях человеческой деятельности. Более того, часто исследователю заранее даже неизвестно, каковы факторы, определяющие поведение изучаемого объекта. Следовательно, их надо выделить и объяснить зависимость их значений от экспериментальных данных.

Во-вторых, возникает вопрос о том, что является полезной информацией в большом массиве данных. Поэтому возникает необходимость в специальных процедурах формирования массива данных и его обработке с целью выделения полезной информации.

В-третьих, экспериментальные данные и результат их обработки могут иметь самое разное представление. Например, массив данных может иметь традиционный вид матрицы, или может быть представлен в виде графа или кривой. Тогда возникает необходимость либо преобразования в более традиционную форму, либо разработки специфических методов обработки. Часто результат исследования выражается не в виде численных значений существенных свойств изучаемого явления, а в виде информации о типах его возможных

7

состояний. Таким образом, целью обработки является получение типологии. Отметим, что необходимость решения задач построения и анализа типологий самого разного вида привела к

появлению, в отличие от традиционных методов обработки количественных данных, новых методов обработки качественных данных.

Соседние файлы в папке Основы обработки данных