6 курс / Клинические и лабораторные анализы / Диагностика_заболеваний_методами_теории_вероятностей_Жмудяк_М_Л
.pdfПродолжение таблицы 5.4
№ |
Поставленных диагнозов |
|||
|
|
|
||
Правила формирования распределений Правиль |
НепраНеопред CE |
|||
экс. |
||||
|
-ных |
вильных еленных |
1.Высота интервала – 1
2.Высота каждого интервала – нет
7 |
3. |
Унимодальность гистограммы – да, |
469 |
16 |
79 |
0.9108 |
|
полная |
|
|
|
|
|
|
4. |
Симптом – центр интервала – нет |
|
|
|
|
|
1. |
Высота интервала – 1 |
|
|
|
|
|
2. |
Высота каждого интервала – нет |
|
|
|
|
8 |
3. |
Унимодальность гистограммы – да, |
476 |
16 |
72 |
0.9146 |
|
относит. |
|
|
|
|
|
|
4. |
Симптом – центр интервала – нет |
|
|
|
|
1.Высота интервала – 1
2.Высота каждого интервала – нет
9 |
3. |
Унимодальность гистограммы – да, |
485 |
14 |
65 |
0.9194 |
|
относит. |
|
|
|
|
|
|
4. |
Симптом – центр интервала – да |
|
|
|
|
|
1. |
Высота интервала – 1 |
|
|
|
|
|
2. |
Высота каждого интервала – нет |
|
|
|
|
10 |
3. |
Унимодальность гистограммы – да, |
477 |
15 |
72 |
0,9184 |
|
полная |
|
|
|
|
|
|
4. |
Симптом – центр интервала – да |
|
|
|
|
|
1. |
Высота интервала – 1 |
|
|
|
|
11 |
2. |
Высота каждого интервала – нет |
475 |
15 |
74 |
0,9164 |
3. |
Унимодальность гистограммы – нет |
4.Симптом – центр интервала – да
5.3Серия экспериментов при различных приемах формирования
базы данных
Для проведения экспериментов использовались все ДП. Для диагностики признаки взяты один раз – в ближайший день от начала болезни. Гистограммы ДП сформированы по правилам, определенным в предыдущем параграфе. Результаты экспериментов приведены в таблице 5.5. Поясним содержащиеся в таблице краткие названия.
«Укрупнения дней» – это количество дней, за которое усредняются признаки с целью получения более репрезентативной выборки при построении гистограмм. Для примера приведены ДП одного из пациентов
121
|
|
|
Данные пациента N |
|
|
|
Таблица 5.5 |
|||
|
|
|
|
|
|
|
||||
Признаки |
Дни, когда у пациента были определены диагностические признаки |
|||||||||
|
1 |
2 |
4 |
5 |
8 |
|
11 |
15 |
20 |
30 |
кожный зуд |
|
+ |
+ |
|
+ |
|
– |
– |
|
– |
АЛАТ |
2.0 |
1.8 |
2.0 |
1.4 |
1.0 |
|
0.6 |
0.4 |
0.2 |
0.2 |
Пусть необходимо выбрать данные по АЛАТ за 6-й день для гистограммы. Если нужно укрупнить 5 дней, тогда берутся анализы около заданного дня – 4,
5, 6, 7, 8-й дни (всего 5 дней, но только в трех из пяти дней имеются данные), далее берется среднее. Результат – (2,0+1,4+1,0)/3 = 1,47.
Если нужно укрупнить 3 дня, тогда берутся анализы за 5, 6, 7-й дни (всего 3 дня, и только в 6-й день имеется анализ). Результат – (1,4)/1 = 1,4.
Вырожденный случай – когда нужно укрупнить 1 день, тогда берутся анализы только за 6-й день. Так как анализ не проводился, то данные этого пациента именно в 6-й день в гистограмму не войдут.
То есть, чем больше дней укрупняются для выборки, тем больше данных получаем для гистограммы. Но одновременно с этим сильнее сглаживаются истинные значения признаков. Необходимо определить предел укрупнения дней, когда диагностика начнет ухудшаться.
«Распространение признаков» – учитывается «постоянность» некоторых дискретных признаков в течение определенного времени. По медицинским данным следующие признаки желтухи не меняются за характерные периоды времени
(табл. 5.6).
Таблица 5.6 Интервалы дней, за время которых признаки не успевают измениться
Дней
Наименование признака |
до определения |
после |
|
определения |
|
|
3 |
|
Расширение холедоха |
до операции |
|
|
3 |
|
Расширение внутренних печеночных ходов |
до операции |
|
|
от поступления |
|
Зеленый цвет печени |
до операции |
|
|
от поступления |
|
Маркеры |
до выписки |
|
|
от поступления |
|
Инородное тело |
до операции |
|
|
|
|
122 |
|
|
Таким образом, зная анализ «маркеры в 8-й день», можно считать известными маркеры в любой из дней от начала до конца болезни (и далее). Это позволяет собрать более представительную выборку по маркерам в любой день.
«Искусственные распределения» – построение искусственных распределений на основании опыта врача. Искусственные распределения используются при отсутствии данных для вычисления надежного истинного распределения (см. раздел
3.3).
Численные эксперименты по определению целесообразности «укрупнения дней» и «распространения признаков» приведены в таблице 5.7. Согласно результатам этих методических экспериментов необходимо укрупнять данные максимум за 5 дней. Коэффициент эффективности такой диагностики CE = 0,9468 (3-й эксперимент). Другие эксперименты (1, 2, 4, 5) показывают по оценке CE худшие результаты.
Опираясь на эту информацию, был проведен 6-й эксперимент, демонстрирующий влияние эффекта распространяемости признаков. Количество правильных диагнозов увеличилось на 5 (по сравнению с 3-м экспериментом). Неправильных уменьшилось на 1, CE = 0,9512.
Следующий шаг – применение медицинских интервалов (7-й расчет). Фактически используются статистические распределения, полученные не из статистики (ввиду ее ограниченности), а из опыта эксперта (но не знаний эксперта). Получены следующие результаты. Правильных – 524. CE = 0,9626.
По результатам расчетов выработаны следующие правила построения распределений:
1.Укрупнение дней – оптимально 5 дней.
2.Использование распространения признаков.
3.Использование искусственных распределений.
По этим правилам получена наилучшая диагностика 564 пациентов: правильных диагнозов поставлено 524, неправильных – 8, неопределенных – 32,
CE = 0,9626.
123
|
|
|
|
|
Таблица 5.7 |
||
|
|
Численные эксперименты по формированию базы данных |
|
||||
|
|
|
Количество поставленных |
|
|||
№ |
Правила формирования распределений |
|
диагнозов |
|
CE |
||
Правиль- |
Непра- |
Неопре- |
|||||
эксп. |
|
|
|
||||
|
|
|
ных |
вильных |
деленных |
|
|
1. |
1. |
Укрупнение дней – 1 |
|
|
|
|
|
|
2. |
Распространения симптомов – нет |
494 |
12 |
58 |
0,9330 |
|
|
3. |
Искусственные распределения – нет |
|
|
|
|
|
2. |
1. |
Укрупнение дней – 3 |
|
|
|
|
|
|
2. |
Распространения симптомов – нет |
501 |
11 |
52 |
0,9403 |
|
|
3. |
Искусственные распределения – нет |
|
|
|
|
|
3. |
1. |
Укрупнение дней – 5 |
|
|
|
|
|
|
2. |
Распространения симптомов – нет |
513 |
10 |
41 |
0,9468 |
|
|
3. |
Искусственные распределения – нет |
|
|
|
|
|
4. |
1. |
Укрупнение дней – 7 |
|
|
|
|
|
|
2. |
Распространения симптомов – нет |
512 |
11 |
41 |
0,9467 |
|
|
3. |
Искусственные распределения – нет |
|
|
|
|
|
5. |
1. |
Укрупнение дней – 9 |
|
|
|
|
|
|
2. |
Распространения симптомов – нет |
513 |
12 |
39 |
0,9445 |
|
|
3. |
Искусственные распределения – нет |
|
|
|
|
|
6. |
1. |
Укрупнение дней – 5 |
|
|
|
|
|
|
2. |
Распространения симптомов – да |
518 |
9 |
37 |
0,9512 |
|
|
3. |
Искусственные распределения – нет |
|
|
|
|
|
7. |
1. |
Укрупнение дней – 5 |
|
|
|
|
|
|
2. |
Распространения симптомов – да |
524 |
8 |
32 |
0,9626 |
|
|
3. |
Искусственные распределения – да |
|
|
|
|
Диагностика проведена на базе 564 тестовых больных.
124
5.4Серия экспериментов с использованием многомерных распределений
Втаблице 5.8 приведены результаты диагностики всех пациентов на основе двух признаков АЛАТ и АСАТ. Признаки выбраны не случайно. Это одни из наиболее взаимозависимых признаков. Их зависимость подтверждена различными статистическими методами и врачом.
Таблица 5.8 Результаты численных экспериментов по объединению признаков АЛАТ и АСАТ в
двумерный признак
Связи между признаками для |
Количество поставленных диагнозов |
CE |
||||
каждой болезни |
всего |
правильн. |
неправил. |
неопредел |
|
|
1. Механическая желтуха – |
|
|
|
|
|
|
два одномерных признака, |
402 |
311 |
21 |
70 |
0,86 |
|
паренхиматозная желтуха – |
||||||
|
|
|
|
|
||
два одномерных признака |
|
|
|
|
|
|
|
|
|
|
|
|
|
2. Механическая – двумерный, |
402 |
191 |
13 |
198 |
0,80 |
|
паренхиматозная – двумерный |
||||||
|
|
|
|
|
||
3. Механическая –два одномерных, |
402 |
214 |
16 |
72 |
0,81 |
|
паренхиматозная – двумерный |
|
|
|
|
|
|
4. Механическая – двумерный, |
402 |
290 |
20 |
92 |
0,84 |
|
паренхиматозная – два одномерных |
В таблице приведены результаты 4-х диагностических тестов. Два признака могут быть взаимозависимы по-разному для каждой болезни. Для паренхиматозной желтухи признаки могут быть сильно зависимы, здесь объединение признаков в двумерный признак может дать определенный эффект, а для механической желтухи зависимость может оказаться слабой, незначимой. В последнем случае двумерный признак может не привести к улучшению диагностики, вследствие ограниченности статистики: погрешности, возникающие при построении двумерного распределения, могут оказаться сильнее преимущества при учете взаимозависимости.
Поэтому предусмотрено построение многомерных признаков, в которых соответствующая взаимозависимость автоматически учитывается для каждого диагностического состояния в отдельности. Таким образом, рассматриваются 4 варианта связей между признаками для обеих болезней.
Результаты экспериментов, на наш взгляд, неоднозначны. С одной стороны, если судить по CE и по правильным диагнозам, эффект от объединения АЛАТ и
125
АСАТ – отрицательный. Так, при использовании признаков как одномерных и независимых (см. графу 1), количество правильно поставленных диагнозов – 311 (CE = 0,86), а при объединении признаков в один двумерный признак при обеих болезнях (см. графу 2) количество правильных диагнозов – 191 (CE = 0,80). Выше сказано о факторах, которые могли привести к такому выводу. С другой стороны, количество неправильных диагнозов явно уменьшилось: 1-я графа – 21 диагноз, 2-я графа – 13 диагнозов. По нашему мнению, уменьшение количества неправильно поставленных диагнозов важнее, чем увеличение правильных диагнозов. Именно поэтому мы считаем результаты экспериментов неоднозначными. Диагностика на других вариантах связей (3 и 4-я графа) заняла промежуточное положение.
Таблица 5.9 Результаты численных экспериментов по объединению признаков «билирубин
прямой и непрямой» в двумерный признак
Связи между признаками для каждой |
Количество поставленных диагнозов |
CE |
||||
болезни |
всего |
правильн |
неправил. |
неопред. |
|
|
1. Механическая – два одномерных, |
393 |
20 |
4 |
369 |
0,65 |
|
паренхиматозная – два одномерных |
||||||
|
|
|
|
|
||
2. Механическая – двумерный, |
393 |
40 |
2 |
351 |
0,66 |
|
паренхиматозная – двумерный |
||||||
|
|
|
|
|
||
3. Механическая – два одномерных, |
393 |
84 |
9 |
300 |
0,67 |
|
паренхиматозная – двумерный |
||||||
|
|
|
|
|
||
4. Механическая – двумерный, |
393 |
41 |
4 |
348 |
0,64 |
|
паренхиматозная – два одномерных |
||||||
|
|
|
|
|
Два признака – билирубин прямой и непрямой – также являются сильно взаимозависимыми (по статистическим и медицинским данным). В этом случае объединение признаков в двумерный признак для паренхиматозной желтухи (графа 3) дает небольшое диагностическое преимущество, если судить по CE и количеству правильных диагнозов. Количество неправильных диагнозов, как видно по таблице, уменьшается, когда используется объединение билирубинов при каждой из болезней (графа 2).
Возникает мысль, что нельзя сделать однозначного вывода о том, что всегда нужно объединять признаки или всегда нужно не объединять признаки. Для одного набора признаков (пары) построение многомерного распределения не оправдывается, для другого набора – объединение полезно, если сравнивать по числу правильных, неправильных диагнозов или CE . Далее, решение об
126
объединении признаков в многомерный признак основывается на сравнении коэффициентов эффективности.
Предложенную методику можно детализировать. В частности, можно рассмотреть 2 признака, у которых при высоких значениях каждого признака объединение в пару рационально (повышает CE ), а при низких значениях – нет (снижает CE ) и т. п.
Врачи рассматривают значения признаков «билирубин прямой» и «билирубин непрямой» в пределах трех категорий: значения в норме, высокие (выше нормы), очень высокие (много выше нормы). Для двумерного признака «билирубин прямой»
– «билирубин непрямой» образовывается девять комбинаций таких категорий. Ниже приведена таблица результатов диагностики с учетом того, что признаки
разбиты на категории – медицинские интервалы.
Таблица 5.10 Результаты численных экспериментов по объединению признаков «билирубин
прямой и непрямой» в двумерный признак.
Связи между |
Категории |
Категории |
|
для |
для |
||
признаками для |
|||
билирубина |
билирубина |
||
каждой болезни |
непрямого |
прямого |
|
|
|
|
|
1 |
2 |
3 |
|
1. Механическая |
Н |
Н |
|
желтуха – |
Н |
ВН |
|
два одномерных |
Н |
МВН |
|
признака, |
ВН |
Н |
|
паренхиматозная |
ВН |
ВН |
|
ВН |
МВН |
||
желтуха – |
МВН |
Н |
|
два одномерных |
МВН |
ВН |
|
признака |
МВН |
МВН |
|
|
Н |
Н |
|
|
Н |
ВН |
|
2. Механическая |
Н |
МВН |
|
желтуха – двумерный, |
ВН |
Н |
|
паренхиматозная |
ВН |
ВН |
|
ВН |
МВН |
||
желтуха – двумерный |
МВН |
Н |
|
|
МВН |
ВН |
|
|
МВН |
МВН |
|
|
|
127 |
Поставленных диагнозов
Всего |
Правиль ных |
Неправи льных |
Неопред еленных |
CE |
|
|
|
|
|
4 |
|
|
|
|
5 |
6 |
7 |
8 |
|
16 |
5 |
0 |
11 |
0,617 |
6 |
1 |
0 |
5 |
0,645 |
7 |
2 |
1 |
4 |
0,655 |
15 |
0 |
0 |
15 |
0,501 |
36 |
0 |
0 |
36 |
0,576 |
158 |
62 |
11 |
85 |
0,713 |
0 |
0 |
0 |
0 |
0 |
4 |
0 |
0 |
4 |
0,350 |
153 |
19 |
2 |
132 |
0,662 |
16 |
5 |
0 |
11 |
0,605 |
5 |
1 |
0 |
4 |
0,745 |
7 |
2 |
1 |
4 |
0,615 |
15 |
0 |
0 |
15 |
0,524 |
36 |
0 |
0 |
36 |
0,591 |
158 |
45 |
8 |
105 |
0,708 |
0 |
0 |
0 |
0 |
0 |
4 |
0 |
0 |
4 |
0,398 |
152 |
33 |
3 |
116 |
0,684 |
Продолжение таблицы 5.10
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
|
|
Н |
Н |
16 |
5 |
0 |
11 |
0,647 |
|
3. Механическая |
Н |
ВН |
5 |
1 |
0 |
4 |
0,693 |
|
Н |
МВН |
7 |
3 |
2 |
3 |
0,679 |
||
желтуха – два |
||||||||
ВН |
Н |
15 |
0 |
0 |
15 |
0,482 |
||
одномерных, |
||||||||
ВН |
ВН |
36 |
0 |
0 |
36 |
0,531 |
||
|
||||||||
паренхиматозная |
ВН |
МВН |
158 |
8 |
3 |
147 |
0,683 |
|
МВН |
Н |
0 |
0 |
0 |
0 |
0 |
||
желтуха – двумерный |
||||||||
МВН |
ВН |
4 |
0 |
2 |
2 |
0,278 |
||
|
||||||||
|
МВН |
МВН |
153 |
36 |
3 |
114 |
0,662 |
|
|
Н |
Н |
16 |
5 |
0 |
11 |
0,582 |
|
4. Механическая |
Н |
ВН |
5 |
1 |
0 |
4 |
0,751 |
|
Н |
МВН |
7 |
2 |
1 |
4 |
0,581 |
||
желтуха – двумерный, |
||||||||
ВН |
Н |
15 |
0 |
0 |
15 |
0,538 |
||
|
||||||||
паренхиматозная |
ВН |
ВН |
36 |
2 |
0 |
34 |
0,621 |
|
ВН |
МВН |
158 |
87 |
16 |
55 |
0,734 |
||
желтуха – два |
||||||||
МВН |
Н |
0 |
0 |
0 |
0 |
0 |
||
одномерных |
||||||||
МВН |
ВН |
4 |
0 |
0 |
4 |
0,546 |
||
|
||||||||
|
МВН |
МВН |
152 |
36 |
2 |
114 |
0,669 |
Н – норма (для значений признака, не превышающих норму); ВН – выше нормы (для значений, превышающих норму);
МВН – много выше нормы (для значений, намного превышающих норму) Основным критерием для выбора способа объединения ДП являлся
коэффициент эффективности. То есть выбирался тот способ объединения, при котором CE является наибольшим.
Таблица 5.11 Выбор объединения ДП в зависимости от категории признаков
Категории ДП для |
|
|
|
механической и для |
|
Выбор в пользу объединения двух ДП в |
|
паренхиматозной желтухи |
CE |
||
Категории для |
Категории для |
|
двумерный признак |
билирубина |
билирубина |
|
|
непрямого |
прямого |
|
|
Н |
Н |
0,647 |
Механич. – 1-мерные, паренхим. – 2-мерный |
Н |
ВН |
0,751 |
Механич. – 2-мерный, паренхим. – 1-мерные |
Н |
МВН |
0,679 |
Механич. – 1-мерные, паренхим. – 2-мерный |
ВН |
Н |
0,581 |
Механич. – 2-мерный, паренхим. – 1-мерные |
ВН |
ВН |
0,621 |
Механич. – 2-мерный, паренхим. – 1-мерные |
ВН |
МВН |
0,734 |
Механич. – 2-мерный, паренхим. – 1-мерные |
МВН |
Н |
0 |
|
МВН |
ВН |
0,546 |
Механич. – 2-мерный, паренхим. – 1-мерные |
МВН |
МВН |
0,684 |
Механич. – 2-мерный, паренхим. – 2-мерный |
|
|
|
128 |
В таблице для каждой категории ДП найден наилучший способ их объединения. Теперь для этих признаков вопрос объединения или не объединения решается для каждого больного индивидуально, в зависимости от величины признаков, от попадания их в ту или иную категорию. Например, у пациента ДП оказались в категориях: «норма» – для непрямого и «выше нормы» – для прямого билирубина. Тогда лучшим вариантом объединения признаков будет: двумерный признак – для механической желтухи и два одномерных признака – для паренхиматозной желтухи. Так же детально рассматривалось объединение всех пар признаков.
При этом проблемой являлся (и остался) выбор признаков для объединения в один многомерный признак. Дело в том, что признак можно объединить в пару не только с одним признаком, но и с несколькими другими признаками. Выше мы объединяли наиболее зависимые признаки, чтобы в наибольшей мере избавиться от погрешностей, возникающих при рассмотрении зависимых признаков как независимых. Возможны и другие подходы к выбору пар признаков для объединения. Например, можно выбрать те пары, у которых CE диагностики – наибольший (максимум CE ).
Для диагностики реально использовалось 19 ДП, рассматриваемых в течение 10 дней (то есть теоретически до 190 признаков). Возникает вопрос, с каким из других признаков объединить в пару данный признак? Один из подходов к выбору пар состоял в том, что каждый признак использовался один раз, поскольку повторное использование признака не дает существенно новой диагностической информации. То есть каждый признак входил только в одну пару. Формирование пар, исходя из изложенного подхода и принципа максимума CE , рассмотрим на примере диагностики по четырем признакам.
129
Таблица 5.12 Коэффициент эффективности диагностики для всех пар, составленных из 4-х ДП
Признак |
Признак |
CE при рассмотрении признаков |
Эффект |
|
N |
M |
как одномерных |
объединенных в |
от |
|
|
(независимых) |
двумерный |
объединения |
1 |
2 |
0.7 |
0.8 |
0.1 |
1 |
3 |
0.8 |
0.7 |
-0.1 |
1 |
4 |
0.6 |
0.9 |
0.3 |
2 |
3 |
0.6 |
0.7 |
0.1 |
2 |
4 |
0.7 |
0.9 |
0.2 |
3 |
4 |
0.8 |
0.9 |
0.1 |
Обозначения: N и M – номера признаков.
По этим данным можно рекомендовать объединения признаков: 1 – 2, 1 – 4, 2 – 3, 2 – 4, 3 – 4. Объединение признаков 1 – 3 нецелесообразно, так как эффект от объединения – отрицателен.
Продолжим выбор пар признаков для диагностики, ограничиваясь вариантом, когда каждый признак участвует в диагностике только один раз. По данным таблицы 5.12, для диагностики перспективны следующие 3 варианта наборов
признаков и их пар: |
|
1) 1 – 2, 3 – 4; |
2) 1 – 4, 2 – 3; 3) 2 – 4, 1 – 3. |
Далее необходимо выбрать один из вариантов объединения. Например, по следующему алгоритму. Пары признаков (табл. 5.12) сортируются по эффекту от объединения. Результаты, полученные после сортировки, приведены в таблице 5.13.
Таблица 5.13
Коэффициент эффективности диагностики для всех пар из четырех признаков, после сортировки
Признак |
Признак |
CE при рассмотр |
ении признаков |
Эффект от |
|
как одномерных |
|||||
N |
M |
объединенных |
объединения |
||
(независимых) |
в двумерный |
|
|||
|
|
|
|||
1 |
4 |
0.6 |
0.9 |
0.3 |
|
2 |
4 |
0.7 |
0.9 |
0.2 |
|
1 |
2 |
0.7 |
0.8 |
0.1 |
|
2 |
3 |
0.6 |
0.7 |
0.1 |
|
3 |
4 |
0.8 |
0.9 |
0.1 |
На основании этих данных (приведенных в таблице 4 результатов сортировки) в пару объединяем признаки, показавшие максимальный эффект от объединения. Это пара 1 – 4 . Далее находим другие пары (вниз по таблице 5.13), признаки
130