- •Ю.Н.Толстова
- •Isbn 5-89176-086-x10
- •Часть 2. Описательная статистика. Изучение связи между номинальными признаками
- •Введение
- •Часть 1.
- •Пример таблицы "объект-признак"
- •1.2. Понятие статистической закономерности. Роль статистических и нестатистических закономерностей в эмпирической социологии
- •1.3. Проблема соотнесения формального и содержательного при формировании представлений о закономерности в социологии
- •Формирование и операционализация понятий при анализе данных (на условном примере)*
- •1.4. Статистическая закономерность как результат "сжатия" исходных данных
- •1.5. Основные цели анализа данных
- •2. Математические методы как средство познания социальных явлений
- •2.1. Роль математизации научного знания
- •2.2. Априорная модель изучаемого явления. Эмпирическая и математическая системы.
- •2.3. Основные цели применения математических методов в социологии
- •3. Актуальность для социологии задач, решаемых математической статистикой
- •3.1. Основные задачи математической статистики с позиции потребностей социологии
- •3.2. Случайные величины и распределения вероятностей как основные объекты изучения математической статистики и эмпирической социологии
- •Пример частотной таблицы, построенной на основе данных таблицы 1 и отражающей выборочное представление распределения случайной величины "удовлетворенность трудом".
- •Пример частотной таблицы, построенной на основе данных таблицы 1 и отражающей выборочное представление распределения двумерной случайной величины ("пол", "удовлетворенность трудом").
- •4. Математическая статистика и анализ данных: линия размежевания
- •4.1. Проблема соотношения выборки и генеральной совокупности.
- •4.2. Отсутствие строгих обоснований возможности применения конкретных методов математической статистики. Эвристичность многих алгоритмов анализа данных
- •4.3. Использование шкал низких типов
- •5. Специфика использования методов анализа данных в социологии
- •5.1. Необходимость соотнесения модели, "заложенной" в методе, с содержанием задачи
- •5.2. Связь разных этапов исследования друг с другом
- •5.3. Другие методологические принципы анализа социологических данных
- •Примечания к части I.
4.2. Отсутствие строгих обоснований возможности применения конкретных методов математической статистики. Эвристичность многих алгоритмов анализа данных
Как поиск соотношений между параметрами найденных выборочных частотных распределений, формирование соответствующих статистических гипотез и т.д., так и перенос выявленных положений на генеральную совокупность в социологии нередко затрудняется тем, что упомянутые соотношения становятся бессмысленными из-за невыполнения условий, отвечающих классическим математико-статистическим критериям. Примером может служить известное требование нормальности условных распределений при построении уравнения регрессии (напомним, что имеются в виду распределения зависимого признака, получающиеся при фиксации значения независимого). Это требование часто не выполняется, а еще чаще социолог просто не проверяет его. Последнее обстоятельство, к сожалению, нередко имеет место на практике из-за сложности проверки тех или иных условий, отсутствия соответствующего программного обеспечения, не достаточной математической грамотности социолога и т.д.
Для некоторых методов, показавших свою эффективность при решении практических задач,отсутствуют строгие доказательства корректности их использования. Это можно сказать, например, относительно применения метода регрессионного анализа к данным, полученным в результате дихотомизации номинальных признаков (об отсутствии доказательств корректности этого подхода говорят сами его авторы [Kerlinger, Pedhazur, 1973]). То же можно сказать об упомянутых нами в п. 2.3 алгоритмах типа AID – не доказано, что эти алгоритмы обязательно приведут к наилучшим “скрывающимся” в исходных данных группировкам.
Но, несмотря на все сказанное, как-то анализировать, изучать данные нам нужно. И... методы используются, несмотря на их некорректность. Это делается и в социологии, и во многих других науках, так или иначе ориентированных на получение теоретических выводов на базе наблюдения большого количества данных (биологии, психологии, геологии, медицине и т.д.). Потребности практики обусловили необходимость обращения исследователей к таким методам, жизнь заставила их мириться с соответствующими некорректностями. Более того, в математике начали вырабатываться своеобразные подходы, направленные не на разработку методов, корректных в той или иной сложной реальной ситуации, а на анализ того, в какой мере могут быть нарушены условия применимости известных методов, чтобы результаты их применения "не слишком" искажали реальность.
"Классические" математические статистики поначалу в принципе отвергали такой подход. Но жизнь взяла свое. И для обозначения совокупности таких некорректных методов, для отделения их от строгих математико-статистических подходов, был введен термин "анализ данных". Итак, мы рассмотреличетвертую причину введения основного интересующего нас термина.
Отметим, что из-за невозможности использования апробированных схем математической статистики для такого рода методов, особое значение для них приобретает проблема обоснованности получаемых с их помощью выводов. От традиционных математико-статистических критериев качества здесь зачастую переходят к требованиям экстремальности некоторых специальным образом построенных критериев-функционалов. Здесь особенно остро стоит вопрос о выделении "точек соприкосновения" содержания задачи и математического формализма, чему в разделе 5 мы уделим большее внимание. Соответствующие положения послужат основой для выделения тех специфических черт, которые отличают анализ социологических данных от анализа данных вообще.
Перейдем к рассмотрению других моментов, мешающих использовать многие математико-статистические построения как в социологии, так и в других науках, опирающихся на анализ статистических эмпирических данных.