Скачиваний:
257
Добавлен:
27.01.2017
Размер:
1.06 Mб
Скачать

График y(Q/q) достаточно определенно отражает искомую прямолинейную зависимость. Методом наименьших квадратов находят коэффициенты прямой: à = –0,156; b = 0,227.

Определяют содержание конденсата и газовый фактор (с учетом того, что ρí = 857 êã/ì3):

K = b/(1 – a) = 0,196 êã/ì3 = 196 ã/ì3;

à = –a/b = 0,687 ì3/êã = 589 ì33.

Если учесть, что разработка блока, в котором пробурена скв. 13, была на- чата в 1971 г., скважина введена в эксплуатацию в 1972 г., а начальные значе- ния содержания конденсата и газового фактора были равны K0 = 233 ã/ñì3 è Ã0 = 230 ì33, то полученные результаты хорошо согласуются с динамикой технологических показателей разработки: происходят ретроградное выпадение конденсата в газоконденсатной зоне и разгазирование нефтяной оболочки.

1.10. ОБРАБОТКА ДАННЫХ ИССЛЕДОВАНИЙ И ВЫЯВЛЕНИЕ ОСНОВНЫХ ФАКТОРОВ, ВЛИЯЮЩИХ НА ПОЛУЧЕННЫЕ РЕЗУЛЬТАТЫ

Ассоциативный анализ. При обработке результатов экспериментальных исследований или промысловой информации в первую очередь необходимо установить, какие из факторов оказывают существенное влияние на рассматриваемый параметр системы и показатель процесса. Один из наиболее простых способов выделения основных влияющих факторов – ассоциативный анализ.

С помощью ассоциативного анализа можно быстро получить ответ на вопрос: оказывает ли влияние на рассматриваемый показатель процесса тот или иной фактор и есть ли смысл проводить более подробные исследования, например дисперсионный и корреляционный анализы, требующие значительно больших затрат времени на вычисления.

Мера связи двух качественных признаков, состоящих из двух групп, определяется коэффициентом ассоциации.

Рассмотрим применение ассоциативного анализа на конкретных примерах. П ри мер. На основании экспериментальных данных для 17 газоконденсатных месторождений необходимо установить, существует ли связь между содержанием конденсата в добываемом газе и его коэффициентом извлечения в

сепараторе при температуре –10 °С и давлении 50–60 МПа.

Все данные по содержанию конденсата разобьем на две группы: более 80 см33 пентанов и вышекипящих и менее этого значения. Коэффициент извлечения также разделим на две группы – больше 0,8 и меньше:

Содержание конденсата в газе q, ñì33........................................................

> 80

< 80

Коэффициент извлечения:

 

 

Kèçâ > 0,8................................................................................................................

8 (a)

1(c)

Kèçâ < 0,8................................................................................................................

0 (b)

8 (d)

Коэффициент ассоциации

89

ψ =

ad + bc

 

.

(1.114)

(a + b)(c + d)(b

 

 

+ a)

 

Подставив числовые значения, получим

 

 

 

ψ = (8 8 −1 0)/ 9 8 8 9 = 64 72 = 0,89.

 

Если абсолютное значение ψ более 3/

N −1, ãäå N – число данных, то

можно считать, что связь между признаками неслучайная. Проверим:

3/

N −1 = 3/ 16 = 0,75, ψ = 0,89 > 0,75,

 

т.е. связь между этими признаками неслучайна.

 

Среднее квадратическое отклонение

 

σψ = (1 − ψ2 )/

N = (1 − 0,892 )/ 17 = 0,209/ 4,11 = 0,0508.

(1.115)

В данном случае величина σψ показывает на достаточную точность коэффициента ассоциации. Следовательно, статистические данные, полученные по 17 месторождениям, можно использовать для построения корреляционной зависимости между коэффициентом извлечения конденсата из газов в сепараторе и его содержанием в добываемом газе.

П ри мер. Необходимо установить, какие из параметров, характеризующих состав газоконденсатной смеси и ее термодинамическое состояние, оказывают влияние на коэффициент извлечения конденсата из пласта, на основе экспериментальных данных по 54 месторождениям.

Рассмотрим следующие параметры: содержание конденсата в пластовом газе q, ñì33; соотношение в газе этана, пропана, бутанов и пентанов с вышекипящими Ï = (Ñ2 + Ñ3 + Ñ4)/Ñ5+; температура выкипания 90 % объема конденсата t90, °С; объемная доля фракций, выкипающих до 100 °С, ε, %; параметр, характеризующий фракционный состав конденсата, l = (t90 – 100)/(90 –

ε); параметр, характеризующий групповой состав конденсата, õ = Ñàð/(Ñìåò

Ñíàô), ãäå Ñàð, Ñìåò, Ñíàô – массовое содержание ароматических, метановых и нафтеновых углеводородов в конденсате соответственно, %; пластовая температура t, °С; плотность конденсата ρ, кг/м3.

Рассмотрим влияние каждого из этих факторов в отдельности.

Месторождения разобьем на три группы – по содержанию конденсата q, ñì33, и на две группы – по коэффициентам извлечения:

Содержание конденсата в газе q, ñì33.......................................

< 100

100–300

> 300

Коэффициент извлечения:

 

 

 

Kèçâ < 0,6...............................................................................................

1 (n11)

17 (n21)

9 (n31)

Kèçâ > 0,6...............................................................................................

9 (n12)

16 (n22)

2 (n32)

Мера связи в этом случае определяется коэффициентом взаимной сопряженности

ψc

=

 

 

ϕ2

 

 

,

 

(1.116)

 

(s −1)(t

 

 

 

 

 

 

1)

 

 

ãäå

 

 

 

 

 

 

 

 

 

 

 

 

 

 

N

(nji

 

2

 

 

ϕ2 =

1

− νji)

;

(1.117)

N

 

ν

 

 

 

 

i,j=1

 

ji

 

 

 

 

s – число групп, различающихся по содержанию; t – число групп, различающихся по коэффициентам извлечения.

90

Для определения ϕ2 вычислим сначала

ν11 = n10n01/N;

ν12 = n10n02/N;

ν13 = n10n03/N; (1.118)

. . . . . . . . . . .

νji = njni/N.

Полученные значения νji в зависимости от содержания конденсата q и коэффициента извлечения конденсата приведены ниже:

Содержание конденсата в газе q, ñì33 ......................................

 

 

 

 

< 100

 

 

100–300

 

> 300

Коэффициент извлечения конденсата:

 

 

 

 

 

5 (ν11)

 

 

16,5 (ν21)

5,5 (ν31)

Kèçâ < 0,6...............................................................................................

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Kèçâ > 0,6...............................................................................................

 

 

 

 

 

 

 

 

 

 

 

 

5 (ν12)

 

 

16,5 (ν22)

5,5 (ν32)

Тогда

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

1

 

2

 

(9 −

2

 

(17 −

2

 

(16

2

 

(9 −

2

 

(2 −

2

 

 

 

(1 − 5)

 

5)

 

16,5)

 

−16,5)

 

9,5)

 

5,5)

 

ϕ

= 2

 

 

 

+

 

 

 

+

 

 

+

 

 

+

 

 

 

+

 

 

 

 

= 0,224.

5

5

5

 

16,5

 

16,5

5,5

5,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Оценку критического значения ϕ2*!

проводим по формуле

 

 

 

 

 

 

 

 

 

 

 

 

ϕ2 > (C −1)N,

 

 

 

 

 

 

 

 

 

(1.119)

ãäå Ñ – число классов в таблице сопряженности. В этом примере C = tS = 2,3 6. Тогда

ϕ2*! = (Ñ – 1)/N = 5/54 = 0,0925.

Òàê êàê ϕ2 = 0,224 > 0,0925, то можно считать, что связь между коэффициентами извлечения и содержанием конденсата неслучайна.

Средняя квадратическая погрешность вычисления

σ

2 =

2

 

ϕ2 (1

+ ϕ2 )=

 

2

 

0,224(1 + 0,224)= 0,142.

 

(1.120)

 

 

 

 

 

 

ϕ

 

N

 

 

 

54

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

По формуле (1.116) коэффициент взаимной сопряженности

 

 

 

 

 

ψ= 0,224/

(3 −1)(2 −1)= 0,224/

2 = 0,159.

 

 

 

 

 

Поскольку погрешность определения ϕ2 велика, то связь не является дос-

таточно надежной.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Ò à á ë è ö à 1.45

 

 

 

 

 

 

 

Влияние параметров смеси на коэффициент извлечения конденсата

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Параметр

 

 

 

 

 

Коэффициент

 

ϕ2

σ

 

 

 

 

 

 

 

 

сопряженности

 

ϕ

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Содержание конденсата в газе q

 

 

 

 

 

 

0,159

 

0,224

0,142

Ï = (Ñ2 + Ñ3 + Ñ4)/Ñ5+

 

 

 

 

 

 

 

 

 

0,192

 

0,27

0,159

Температура выкипания 90 % объема конденсата t90

 

0,187

 

0,263

0,157

Объемная доля фракций, выкипающих до 100

°Ñ,

ε

 

0,043

 

0,061

0,068

Параметр, характеризующий фракционный состав конденсата,

 

0,282

 

0,256

0,153

l = (t90 – 100)/(90 – ε)

групповой состав

конденсата,

 

0,029

 

0,041

0,068

Параметр, характеризующий

 

 

x = Càð/(Ñìåò Ñíàô)

 

 

 

 

 

 

 

0,044

 

0,062

0,070

Пластовая температура t

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

91

Аналогичные расчеты были проведены для каждого из перечисленных параметров. Из анализа полученных результатов (табл. 1.45) следует, что основное влияние на коэффициент извлечения оказывают параметры q, Ï, t90, l. Между параметрами E, x, t, ρ и коэффициентом извлечения связь не установлена.

Одним из важнейших вопросов при решении задач классификации является определение набора факторов, значения которых играют существенную роль при разделении объектов по группам. Один из наиболее простых методов – нахождение точечного бисериального коэффициента корреляции:

r

=

xA xB

 

nAnB

;

 

 

(1.121)

 

 

 

 

 

 

pb

 

Sx

n (n − 1)

 

 

 

 

 

 

 

 

n

2

n

2

1

1

 

 

Sx = xi

xi

 

 

 

 

,

(1.122)

 

 

− 1

i=1

 

i=1

 

n n

 

 

 

 

 

 

 

 

 

 

 

ãäå xA, xB – среднее значение признака для класса (группы) À è Â соответст-

венно; Sõ – стандартное отклонение всех значений по данному признаку.

П ри мер. Рассмотрим, как с помощью точечного бисериального коэффициента корреляции можно выбрать основные признаки, влияющие на распределение газоконденсатных месторождений по классам: À – с нефтяной оторочкой и Â – áåç íåå.

Ò à á ë è ö à 1.46

Значения признаков для газоконденсатных месторождений классов À è Â

¹ ï/ï

 

ðïë, ÌÏà

 

t, °C

 

 

 

Молярный состав пластового газа, %

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C1

 

C2

 

C3

 

C4

 

C5+

 

Nàç

 

C1/C5+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Класс А

 

 

 

 

 

 

 

 

1

 

38,7

 

107

 

61,8

 

11,33

 

6,22

 

1,8

 

12,7

 

4,58

 

4,8

 

 

 

 

 

 

 

 

 

2

 

41,6

 

158

 

53,9

 

13,8

 

5,8

 

2,5

 

14

 

3

 

3,8

3

 

31,7

 

139

 

67,1

 

12

 

4,25

 

1,9

 

7

 

3,4

 

9,6

4

 

35,6

 

151

 

67

 

11,2

 

3,6

 

1,8

 

6,8

 

1,6

 

9,8

5

 

37,4

 

148

 

60,2

 

11,2

 

4,7

 

1,6

 

2,8

 

3,7

 

24,7

6

 

27,3

 

114

 

66,2

 

13,8

 

5,9

 

3,4

 

3,8

 

4,4

 

17,4

7

 

18,8

 

23

 

79,1

 

6,4

 

3,6

 

2,2

 

4,8

 

3,4

 

16,5

8

 

35,6

 

130

 

64,6

 

10,7

 

6,9

 

3,5

 

6,7

 

4,1

 

9,6

9

 

17

 

55

 

88,8

 

3,5

 

2,4

 

1,7

 

3,4

 

 

26,1

10

 

28

 

83

 

86,1

 

5,9

 

2,4

 

1

 

3,2

 

1,6

 

26,9

11

 

25,2

 

82

 

73

 

5,2

 

5,0

 

3,3

 

10,4

 

2

 

7

12

 

24,2

 

81

 

82

 

6,3

 

3,5

 

2,3

 

3,7

 

1,4

 

22,2

13

 

37

 

60

 

74,8

 

8,7

 

3,9

 

1,8

 

6,4

 

4,3

 

11,7

14

 

40

 

92

 

88,6

 

3,1

 

1,8

 

1,1

 

4,7

 

0,2

 

18,8

15

 

30

 

72

 

92

 

2,5

 

1

 

0,5

 

2,1

 

0,6

 

44,1

16

 

35,5

 

72

 

92

 

2,3

 

1,6

 

0,7

 

3,4

 

0,5

 

27,1

17

 

60

 

105

 

93,5

 

2,5

 

0,9

 

0,5

 

5

 

0,6

 

18,7

18

 

45

 

75

 

93,5

 

1,8

 

0,8

 

0,5

 

3,4

 

0,4

 

27,5

19

 

45

 

75

 

94,6

 

1,2

 

0,7

 

0,5

 

3

 

 

31,7

20

 

50

 

89

 

96

 

3,7

 

2,6

 

1,8

 

5,8

 

0,1

 

14,8

21

 

17,5

 

26

 

84,6

 

5

 

1

 

0,8

 

1,7

 

6

 

49,8

22

 

29,5

 

70

 

92,7

 

2,4

 

1,2

 

0,8

 

2,4

 

0,5

 

38,6

23

 

30

 

72

 

94,3

 

1,8

 

1

 

0,5

 

2,5

 

 

37,6

24

 

30,2

 

72

 

94,7

 

1,6

 

1,1

 

0,4

 

2,2

 

 

43

25

 

45

 

85

 

91,4

 

2,4

 

1,2

 

0,4

 

4,0

 

0,6

 

22,9

26

 

34,5

 

71

 

92,2

 

1

 

0,6

 

0,3

 

2,3

 

0,2

 

40,7

27

 

48

 

95

 

95

 

1

 

0,6

 

0,3

 

2,5

 

0,6

 

38

28

 

64

 

80

 

89,4

 

1,93

 

1,92

 

1,2

 

6,25

 

 

14,3

29

 

40

 

80

 

92,44

 

1,40

 

1,11

 

0,5

 

4,55

 

 

20,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

92

 

 

 

Ï ð î ä î ë æ å í è å

ò à á ë. 1.46

 

 

 

 

 

 

 

 

 

 

 

 

 

¹ ï/ï

ðïë, ÌÏà

t, °C

 

Молярный состав пластового газа, %

 

 

 

 

 

 

 

 

 

C1

C2

 

C3

C4

C5+

Nàç

C1/C5+

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Класс В

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

12,5

50

90,4

4,1

 

1,3

0,9

1,3

2

69,5

2

24

50

93,6

4

 

0,6

0,7

0,4

0,6

232

3

14,6

42

88,9

5,7

 

1,5

0,6

0,9

1,9

98,7

4

29,3

128

88,7

5,1

 

1,6

1

1,1

1

80,6

5

22

95

85,3

5

 

1,7

0,6

1,1

3,9

77,6

6

28,2

97

87,7

4,9

 

1,9

0,9

1

1,1

86,7

7

25,1

88

87,2

4,7

 

1,4

0,8

1

3,2

87,2

8

22,5

74

85

6,9

 

2,1

1,1

1

2,8

85

9

24,2

105

90,6

2

 

0,7

0,5

0,5

1

181

10

40

146

81,7

10,6

 

1,5

0,5

0,3

0,1

272

11

14,7

50

94,1

1,3

 

1,1

0,8

0,5

1,9

188

12

33

82

82,3

5,6

 

5

3,5

0,4

1,5

206

13

14,7

42

88,1

2,4

 

0,9

1

1,4

0,9

63

14

34

64

94,9

2,2

 

0,7

0,4

1

0,62

94,9

15

18,8

60

94,4

2

 

0,4

0,2

0,5

1,4

188,8

16

19,4

52

92,5

2,8

 

1,8

0,9

0,4

1,4

231

17

16,7

59

98,9

2,3

 

0,7

0,6

0,5

2

188

18

11,2

47

94,2

3

 

1,6

0,6

0,6

0,6

188

19

9

45

92

3

 

1,6

0,6

0,6

1,9

2154

20

16,1

73

98,3

366

 

1,6

0,3

0,3

0,7

311

21

30,6

72

91

3,1

 

1,4

1

1,5

1,6

60,6

22

18,8

80

88,5

3,8

 

2,9

1,7

1,3

1,4

68

23

28,3

115

35,7

1,0

 

0,9

1,1

2,6

78

24

26,1

141

81,2

8,7

 

2,5

0,9

1,2

1,1

67,6

25

41,8

79

91,4

3,8

 

1,1

0,4

1,4

1,6

65,3

26

23,1

59

92,2

2,1

 

1

1

1,8

51,3

27

16,9

73

94,7

2

 

0,4

0,4

1

0,7

95,7

28

14,6

42

86,9

5,7

 

1,5

0,6

0,9

1,1

78,3

29

23

59

94,4

2,5

 

0,8

0,4

1,5

0,4

63

 

 

 

 

 

 

 

 

 

 

 

Состав пластового газа, пластовые давление и температура, а также соотношение С15+ для этих месторождений приведены в табл. 1.46. Наиболее информативными признаками являются С15+ è Ñ5+. Ниже приведены значения точечного бисериального коэффициента корреляции rðâ:

Признак ......................

Ñ1

Ñ2

Ñ3

Ñ4

Ñ5+

Ñ15+

Nàç

ðïë

Коэффициент кор-

–0,6425

0,0695

0,3838

0,3429

0,6442

–0,7085

0,2735

0,5898

реляции rðâ .................

Дисперсионный анализ. Если необходимо установить не только влияние того или иного фактора на ход процесса, но и степень влияния на него отдельных факторов и их взаимодействия, применяют статистический метод, называемый дисперсионным анализом. Он особенно эффективен при одновременном изучении нескольких факторов. При классическом методе исследования подобное изучение проводят, изменяя лишь один фактор, а остальные оставляют неизменными. В связи с этим затрачивается много времени, так как для каждого фактора проводят всю серию наблюдений, не используемую в дальнейшем при изучении других факторов. При дисперсионном анализе каждое наблюдение служит для одновременной оценки всех факторов и их взаимодействия. Особенно ценно оно тем, что при этом можно не делать параллельных наблюдений, ограничиваясь лишь одним наблюдением для каждого сочетания уровней изу- чаемых факторов. Дисперсионный анализ является начальной стадией исследования, позволяющей ответить на вопрос: существует ли статистическая связь между анализируемыми параметрами и стоит ли продолжать работу по их изу-

93

чению? Кроме того, важное преимущество дисперсионного анализа заключается в том, что он дает возможность более точно находить среднюю квадратическую погрешность опыта в целом при малом повторении различных вариантов.

Для проведения дисперсионного анализа необходимо выполнение следующих условий:

1)результативный признак или его преобразованную функцию можно рассматривать как случайную выборку из генеральной совокупности, подчиненную нормальному закону распределения;

2)факторы, влияющие на результативный признак, должны быть не коррелированы;

3)дисперсии по группам должны быть однородны.

П ри мер. Рассмотрим взаимное влияние трех приведенных в предыдущем примере параметров С4 (l), Ñ5+ (Ï) è Ñ15+ (q) на коэффициент извлечения конденсата из пласта.

Ряд значений каждого фактора разобьем на три интервала. Значения коэффициента извлечения распределим по клеткам табл. 1.47.

По данным каждой клетки вычислим

 

 

 

1

m

 

 

Mj (l,Ï,q) =

j

yij;

(1.123)

 

 

 

 

mj i=1

 

 

z (l,Ï,q) =

1

 

mj

2

 

 

 

yij ,

(1.124)

 

 

 

mj i=1

 

 

ãäå mj – число значений коэффициента извлечения в клетке.

Составим таблицу, в каждой клетке которой проставим соответствующее

mj

количество данных mi, их сумму yij, среднее значение Ìi и значение zj =

1

mj

=yij.

1

Сформируем новую таблицу без учета, например, фактора l. Для этого объединим клетки уровней фактора l при одних и тех же уровнях факторов Ï è q. Это объединение осуществим путем суммирования числа данных m è èõ

Ò à á ë è ö à 1.47

Распределение значений коэффициента извлечения конденсата

 

 

Ï1 = 0÷2

 

 

Ï2 = 2÷4

 

 

Ï3 > 4

 

q(C1/C5+)

l1 =

l2 =

l3 > 3,2

l1 =

l2 =

l3 > 3,2

l1 =

l2 =

l3 > 3,2

 

= 0÷2,5

= 2,5÷3,2

= 0÷2,5

= 2,5÷3,2

= 0÷2,5

= 2,5÷3,2

q1 = 0÷150

 

0,40

 

0,82

0,85

 

0,51

 

 

 

 

0,46

 

0,65

0,77

 

0,9

 

 

 

 

0,60

 

0,60

0,78

 

0,79

 

 

 

 

 

 

0,65

0,65

 

0,8

 

 

 

 

 

 

 

0,62

 

0,6

 

 

q2 = 150÷300

0,57

0,5

0,46

0,45

0,83

0,71

0,92

0,84

0,38

 

 

0,40

0,4

0,57

0,88

0,81

 

 

0,50

0,46

 

 

0,4

 

0,73

0,59

 

 

 

 

 

 

 

 

 

0,71

 

 

 

 

 

 

 

 

 

0,69

 

 

 

 

q3 > 300

 

0,22

0,52

0,42

0,66

0,38

 

 

 

 

 

0,42

0,46

 

 

0,44

 

 

 

 

 

0

0,43

 

 

0,34

 

 

 

 

 

 

0,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

94

mj

ñóìì yij. Остальные же два элемента получим, как указано выше. Таким же

1

методом составим таблицы, в которых исключим влияние факторов Ï è q.

Для каждой таблицы вычислим факториальную σ12 и остаточную σ20 дисперсии:

2

 

1

 

 

g

 

1

N

2

 

 

σ1

=

 

 

 

 

 

z j

 

yi

 

 

;

(1.125)

 

g − 1

 

 

 

 

 

1

 

N

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

 

N

 

g

 

 

 

 

 

σ02

=

 

 

 

yi z j

,

 

 

(1.126)

 

 

 

 

 

 

 

 

 

N g

1

1

 

 

 

 

 

ãäå g – число заполненных клеток таблицы; N – число экспериментальных данных.

N

При вычислении σ12 è σ20 для каждой таблицы значения N è yi должны

1

быть одинаковыми. Найдем отношение θ = σ12 / σ20 и числа степеней свободы

f1 = g – 1 è f2 = N g. Полученное отношение θ при соответствующих f1 è f2 сравнивается с табличным значением F по соответствующим степеням свободы. Если θ > F, то это свидетельствует о влиянии факторов или их взаимодействий на данный показатель, в противном случае – об отсутствии связи.

Информативность признаков. Влияние разных факторов на показатель процесса можно определять не только с помощью дисперсионного анализа, но и на основе вычисления информативности влияющих факторов.

Пусть имеются две группы объектов À è Â и какой-нибудь общий для них признак. Если в дифференцируемых состояниях объектов À è Â этот признак различается для каждой группы объектов, то он информативен. По этому признаку можно отличать объекты группы À от объектов группы Â. Если же признак не информативен, то такое различие по этому признаку сделать не удается.

Величины информативности признаков можно использовать в задаче распознавания образов как весовые коэффициенты при факторах. Этой информации из дисперсионного анализа мы не получим, ибо критерий Фишера и другие статистические критерии позволяют оценить лишь достоверность различий, тогда как информативность дает степень этих различий.

Для оценки информативности признаков применяют меру Кульбака [51]. Она позволяет оценить не достоверность различий между распределениями, а их степень. Если имеются данные по объектам, принадлежащим к двум разным классам, то каждый из признаков разбивают по значению на ряд интервалов и определяют частоту попадания в эти интервалы объектов, отдельно по каждому классу. Затем рассчитывают относительные частости в процентах, при этом за 100 % принимают сумму частостей для класса À во всех интервалах и за 100 % – сумму частостей класса Â.

Чтобы свести к минимуму влияние выбора границ интервалов на результаты, в каждом интервале определяют средневзвешенные сглаженные частости методом вычисления взвешенной скользящей средней. При этом учитывают частости данного признака в четырех соседних диапазонах. Средневзвешенную среднюю вычисляют по формуле

95

 

 

= (ó1 + 2ó2 + 4ó3 + 2ó4 + ó5 )/ 10.

(1.127)

y

Для подсчета сглаженной частости в первом интервале вводят некоторые фиктивные интервалы – нулевой и минус первый. Поскольку в них не попадает ни одного наблюдения, частости в этих диапазонах равны нулю: ó0 = ó–1 = 0. Тогда сглаженная частость в первом и втором интервалах для группы À

y1

À = (0 + 0 + 4ó1 + 2ó2 + ó3)/10;

 

y2 À

= (0 + 2ó1 + 4ó2 + 2ó3 + ó4 )/10.

(1.128)

Для упрощения дальнейших вычислений округляют сглаженные частости в процентах с точностью до первого знака после запятой. Вычисляют отношение сглаженных частостей yÀ / yÂ. Определяют диагностические коэффициенты ÄÊ – это логарифм отношений сглаженных частостей, умноженный на 10 и округленный с точностью до одного:

ÄÊ = 10 lg

yA

.

(1.129)

 

 

yB

 

Так как при этом появляются сглаженные частости в фиктивных интервалах – нулевом и минус первом, то средневзвешенные величины следует суммировать и полученную сумму считать средневзвешенной частостью y1 данного

признака в крайнем диапазоне.

Согласно Кульбаку, коэффициент информативности i-го диапазона j-го признака

I(

 

ij)=

1

ÄÊ(

 

ij)(

 

ijA

 

ijB).

(1.130)

y

y

y

y

 

2

 

 

 

 

 

 

 

 

Для составления диагностической таблицы необходимо вычислить информативность признака во всех интервалах и затем определить информативность всего признака xj, которая равна сумме информативностей его диапазонов:

I(xj )= I(xij ).

(1.131)

i

 

П ри мер. Используем данные по составам пластовых газов конденсатных месторождений, имеющих нефтяную оторочку (класс À) и не имеющих нефтяной оторочки (класс Â), которые приведены в табл. 1.46.

Результаты расчета информативности этих признаков (табл. 1.48) свидетельствуют, что наиболее информативными оказались признаки С15+, Ñ5+ è

ðïë.

Следует отметить, что описанный метод применяют при большой погрешности исходной информации. Например, в данном примере состав пластового газа различен в разных точках залежи. Это различие тем больше, чем сильнее отклоняется состояние пластового газа от равновесного. В такой ситуации применение метода с разбивкой значения каждого признака на интервалы, которые превышают возможные пределы изменения признаков, присущих данному объекту (в данном случае залежи), наиболее эффективно.

Корреляционный анализ позволяет установить степень линейной статистической связи как между факторами и показателем или параметром процесса, так и между различными факторами.

96

Ò à á ë è ö à 1.48

Результаты расчета информативности признаков

 

Интервал

 

Информати

 

Интервал

 

Информати

Признак

значений

ÄÊ

Признак

значений

ÄÊ

вность

I

вность I

 

признака

 

 

признака

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C1/C5+

–44÷3

+6

0,45

 

 

 

 

C1

71

+11

0,6

 

 

 

3–47

+5

0,7

 

 

 

 

 

77–83

–1

0

 

 

 

47–91

–1

0

 

 

 

 

 

83–89

–2

0,1

 

 

 

91–135

–17

0,2

 

 

 

 

 

89–95

–2

0,1

 

 

 

> 135

–17

1,9

 

 

 

 

 

95–101

–2

0,1

 

 

 

 

 

 

 

 

 

 

 

 

 

101–107

–1

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I = 3,25

 

 

 

I = 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C5+

–4÷2

–14

0,67

 

 

 

 

Ñ2

2,83÷–0,83

+1

 

 

 

2÷0

–5

0,34

 

 

 

 

 

–0,83÷1

0

 

 

 

0–2

–4

0,48

 

 

 

 

 

1–2,83

0

 

 

 

22–4

+2

0,11

 

 

 

 

 

2,83–4,66

–2

0,1

 

 

 

> –4

+5

0,5

 

 

 

 

 

4,66–6,49

–2

0,1

 

 

 

 

 

 

 

 

 

 

 

6,49–8,32

–2

0

 

 

 

 

 

 

 

I = 2,1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

8,32–10,15

+1

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

pïë

17–90

–9

0,3

 

 

 

 

 

10,15–13,81

+9

0,2

 

 

 

90–163

–6

0,4

 

 

 

 

 

13,81–14,64

+10

 

0,2

 

 

 

163–236

–3

2

 

 

 

 

 

 

 

 

 

I = 1

 

236–309

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

309–382

+3

0,2

 

 

 

 

Tïë

23–3

–2

 

 

 

382–455

+5

0,3

 

 

 

 

 

3–23

–4

0,1

 

 

 

455–528

+8

0,3

 

 

 

 

 

23–43

–2

0,1

 

 

 

528–601

+9

0,2

 

 

 

 

 

43–63

–2

0,1

 

 

 

 

 

 

 

 

 

 

 

 

 

63–83

 

 

 

 

 

 

 

I = 3,7

 

 

 

 

 

 

 

 

 

83–103

+1

0

 

 

C3

–0,53÷0,40

–2

0,1

 

 

 

 

 

103–123

+2

0

 

 

 

0,4–1,33

–2

0,1

 

 

 

 

 

123–143

+2

0

 

 

 

1,33–2,26

–3

0,1

 

 

 

 

 

143–163

+3

0

 

 

 

1,26–3,19

–1

0,0

 

 

 

 

 

163–183

+4

0

 

 

 

3,19–4,12

+3

0,1

 

 

 

 

 

183–203

+6

0

 

 

 

4,12–5,05

+8

0,4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I = 0,4

 

5,05–5,98

+11

0,4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

5,98–6,91

+13

0,3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I = 1,5

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

C4

–0,3÷0,2

–2

0

 

 

 

 

 

 

 

 

 

 

 

 

 

0,2–0,7

–2

0,1

 

 

 

 

 

 

 

 

 

 

 

 

 

0,7–1,2

–2

0,1

 

 

 

 

 

 

 

 

 

 

 

 

 

1,2–1,7

–2

0,1

 

 

 

 

 

 

 

 

 

 

 

 

 

1,7–2,2

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2,2–2,7

+4

0,2

 

 

 

 

 

 

 

 

 

 

 

 

 

2,7–3,2

+11

0,5

 

 

 

 

 

 

 

 

 

 

 

 

 

3,2–3,7

+9

0,3

 

 

 

 

 

 

 

 

 

 

 

 

 

3,7–4,7

+7

0,2

 

 

 

 

 

 

 

 

 

 

 

 

 

4,7–6,2

+6

0,05

 

 

 

 

 

 

 

 

 

 

 

 

 

 

+6

0,02

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

I = 3,25

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Для оценки статистической связи используют коэффициенты корреляции, которые вычисляют по формуле

 

1

N

1

 

 

 

 

 

 

 

 

 

 

ryx =

 

(xi

x

)(yi

y

)=

 

 

 

[(x1

x

)(y1

y

)+

 

(N − 1)σxσy

 

(N − 1)σxσy i=1

 

 

 

 

 

 

 

 

 

 

+ (x2

 

)(y2

 

)+ ...+ (xN

 

)(yN

 

)],

(1.132)

 

x

y

x

y

97

ãäå ryx – коэффициент корреляции между показателем процесса и одним из факторов; x è y – математические ожидания, определяемые по формуле x =

NN

=xi / N; y = yi / N; σ2x è σ2y – дисперсии, вычисляемые по формулам

1

1

2

1

 

N

 

 

2

2

 

σx =

 

 

(xi x);

σy =

N − 1

 

i=1

 

 

 

 

1

 

N

 

 

2

 

 

 

 

 

 

(yi y).

(1.133)

N − 1

i=1

 

 

 

 

Коэффициент корреляции лежит в пределах от –1 до +1. Коэффициент –1 соответствует максимальной отрицательной корреляции, когда ó уменьшается с увеличением õ, а все экспериментальные точки лежат на прямой; коэффициент 0 соответствует полному отсутствию корреляции, а коэффициент +1 – максимальной положительной корреляции. Обычно коэффициент корреляции имеет дробное значение, и его следует проверить на статистическую значи- мость.

Достоверность значения коэффициента корреляции оценивают с помощью критерия надежности

θr = |ryx|/σr,

(1.134)

ãäå σr – среднее квадратическое отклонение коэффициента корреляции:

σ

r

= (1 − r2

)/

N.

(1.135)

 

yx

 

 

 

При критерии θ > 2,6 с вероятностью 0,95 можно утверждать о существовании линейной корреляционной связи между анализируемыми параметрами.

Ïри мер. На основе результатов планированных расчетов методом комбинационного квадрата по определению коэффициента дополнительного извлече- ния конденсата из пласта при закачке газа в пласт получены значения коэффи-

циентов корреляции, средние значения факторов и средние квадратические от-

клонения σy, σxi (табл. 1.49). Наибольшая статистическая связь установлена между коэффициентом извлечения конденсата, с одной стороны, и давлением и количеством закачиваемого газа, с другой. Связь состава закачиваемого газа с коэффициентом извлечения конденсата очень незначительна. Расчет планировали с помощью метода комбинационного квадрата, т.е. путем нейтрализации влияния всех факторов, за исключением рассматриваемого, поэтому коэффициенты корреляции между факторами равны нулю.

Ïри мер. Чтобы выявить влияние таких факторов, как давление ð, температура t, содержание конденсата в пластовом газе С5+, характеристический фак-

òîð

l

на выход конденсата из газа

3

K

g (г/м ), были проведены расчеты по кон-

стантам равновесия. Для сокращения объема вычислительных работ варианты расчетов выбирали методом комбинационного равновесия.

С использованием плана проведения расчетов и результатов, которые были подвергнуты корреляционному анализу, получена нормированная корреляционная матрица (табл. 1.50).

На основании корреляционной матрицы можно сделать вывод, что на величину g основное влияние оказывает С5+ (состав системы), меньше влияет температура и совсем незначительно – давление и характеристический фактор.

При обработке статистических материалов коэффициенты корреляции между факторами отличны от нуля. Рассмотрим такую обработку на следующем примере.

98

Соседние файлы в папке 2003_МИРЗАДЖАНЗАДЕ А.Хи др.-Основы технологии добычи г