Скачиваний:
103
Добавлен:
01.05.2014
Размер:
731.14 Кб
Скачать

19 Двоенко с.Д. Методы анализа бмд

1. Введение в анализ данных

1.1. Проблема обработки данных

Современное состояние человеческого общества характеризуется высоким развитием уровня техники, сложностью используемых технологических процессов, эффективностью различных видов связи и коммуникаций. Поэтому в целом состояние человеческого общества характеризуется наличием интенсивных потоков информации, которые воздействуют на составные части и элементы структуры человеческой цивилизации и связывают их в единое целое. В 60-х годах XX века появился термин “информационный взрыв”, смысл которого состоит в том, что бурное развитие техники, технологии и связи привело к необходимости обрабатывать информацию (или данные) такого большого объема и в такие ограниченные сроки по времени, что требуемая скорость переработки информации и принятия решений в ряде случаев оказалась на пределе человеческих возможностей.

С другой стороны, научный прогресс достиг стадии развития, когда фундаментальные естественно-научные закономерности были открыты и исследованы, а новые взгляды на природу оказались столь сложны, что организация исследований и разработка теории стали решаться лишь на уровне больших исследовательских коллективов. Ярким примером служит кризис физической теории в начале XX века и последующее ее развитие.

С практическим применением ЭВМ возникла возможность в первую очередь резко ускорить процесс переработки информации. Это сразу перевело в разряд практических многие теоретические задачи, исследование которых ранее было просто невозможно из-за большого объема вычислений. Ориентация на вычисления с помощью ЭВМ дала толчок новому этапу в развитии различных разделов научной теории и прежде всего вычислительной математики. Использование ЭВМ позволило справиться не только с большим объемом вычислений, но и с большим объемом поступающих на простую обработку данных. Тем самым снималась угроза “информационного взрыва” и в обычной, ненаучной жизни человеческого общества.

В свою очередь, совершенствование математических методов обработки экспериментальных данных в направлении увеличения их объема и скорости их обработки с одной стороны, и все более сильная интеграция и взаимосвязь различных составных частей структуры человеческого общества с другой стороны, привели к использованию математических методов обработки данных не только в технических областях, но и в нетрадиционных сферах - медицине, биологии, экономике, экологии, социологии.

Возросшая сложность процессов в технике и технологии, сложность научных теорий и большая интенсивность информационных потоков в современном обществе привели к необходимости учитывать как можно больше информации об изучаемом явлении для того, чтобы адекватно описать его с учетом всей совокупности взаимосвязей и мешающих воздействий. Такая необходимость приводит к тому, что в ходе экспериментов приходится накапливать большие объемы информации или, другими словами, большие массивы данных, а также применять специальные методы их обработки. В связи с необходимостью обработки больших массивов экспериментальных данных исследователи обратили внимание на следующие обстоятельства, которым раньше просто не придавали значения.

Во-первых, экспериментальные данные, как правило, не содержат в явном виде информации о наиболее существенных свойствах изучаемого явления. Как правило, экспериментальные данные накапливаются при измерении некоторых величин на объекте исследования. В то же время наиболее существенные свойства изучаемого явления оказываются, как правило, его внутренними, глубинными характеристиками, недоступными для непосредственного измерения. Такие свойства принято называть факторами. Приведем классический пример.

В психологии при оценке уровня развития личности вычисляется так называемый коэффициент умственного развития (коэффициент интеллекта КИ). Очевидно, что КИ не является физической величиной, которую можно непосредственно измерить в ходе эксперимента. Поэтому испытуемый выполняет ряд тестов, во время которых фиксируются, т.е. измеряются, значения таких физических величин, как скорость реакции, правильность решения, оптимальность выбранного варианта и т.д. Совершенно очевидно, что совокупность таких значений, зафиксированных в ходе психологического эксперимента, лишь косвенным образом характеризует интеллектуальные возможности испытуемого. Для оценки КИ требуется теория, объясняющая зависимость его значения от измеренных величин и дающая формулу его вычисления.

В итоге оказалось, что такая ситуация характерна для исследований в самых разных областях человеческой деятельности. Более того, часто исследователю заранее даже неизвестно, каковы факторы, определяющие поведение изучаемого объекта. Следовательно, их надо выделить и объяснить зависимость их значений от экспериментальных данных.

Во-вторых, возникает вопрос о том, что является полезной информацией в большом массиве данных. Поэтому возникает необходимость в специальных процедурах формирования массива данных и его обработки с целью выделения полезной информации.

В-третьих, экспериментальные данные и результат их обработки могут иметь самое разное представление. Например, массив данных может иметь традиционный вид матрицы, или может быть представлен в виде графа или кривой. Тогда возникает необходимость либо преобразования в более традиционную форму, либо разработки специфических методов обработки. Часто результат исследования выражается не в виде численных значений существенных свойств изучаемого явления, а в виде информации о типах его возможных состояний. Таким образом, целью обработки является получение типологии. Отметим, что необходимость решения задач построения и анализа типологий самого разного вида привела к появлению, в отличие от традиционных методов обработки количественных данных, новых методов обработки качественных данных.

Соседние файлы в папке Методы анализа больших массивов данных