При использовании данного алгоритма важнейшим шагом является определение
"критерия классификации", по которому будет происходить распределение
молочной железы в тот или иной класс. Рассмотрим алгоритм поиска критерия
классификации. Вначале определим множество значений Sj, по определенной выше
формуле
,
где j - номер молочной железы (в нашем случае n=67).
Для того чтобы найти S0, вначале найдем "значимые" интервалы области изменений для каждого класса. Чтобы разбить на интервалы, был выполнен следующий алгоритм:
. Находим подобласти
, где sl определяется по формуле:
. Если значение
больше значения sl, то относим молочную железу к классу
"Больные", иначе к классу "Здоровые".
. Если проверены все молочные железы, то находим специфичность
(доля верно диагностированных здоровых):
где m - количество молочных желез класса "Здоровые", правильно классифицированных, M - общее количество молочных желез класса "Здоровые"
и чувствительность (доля позитивных результатов теста в группе больных
пациенток):
где n - количество молочных желез класса "Больные", правильно классифицированных, N - общее количество молочных желез класса "Больные".
4. Каждой подобласти ставится в соответствие число
. Находим максимум среди
:
который достигается на множестве
.
6. Выбираем критерий классификации
.
В результате работы алгоритма, был найден критерий классификации
.
Найденные алгоритмы проверялись на обучающей выборке из 550 молочных желез (80 молочных желез пациенток здоровых и 470 молочных желез пациенток с заболеваниями молочных желез). При проверке была достигнута точность - 89,5%, специфичность - 75% и чувствительность - 91,9%.
Получив критерий диагностики, стоит отметить, что точность диагностики здоровых пациенток (специфичность) оставляет желать лучшего. Одной из причин последнего является недостаточно оптимальный выбор используемых диагностических признаков. Было решено, с помощью вычислительных экспериментов произвести поиск более эффективного набора признаков.
При использовании первоначального набора высокоинформативных признаков с выбранным критерием классификации, в результате диагностики была достигнута точность в 89,5%, специфичность- 75%, чувствительность - 91,9%.
Минимизация набора происходила следующим образом:
Шаг 1. Берем два высокоинформативных признака.
Шаг 2. Проводим по выбранным признакам диагностику.
Шаг 3. Фиксируем специфичность
и чувствительность
, полученные в результате
диагностики. Вычисляем
.
Шаг 4. К выбранным признакам добавляем следующий по информативности признак.
Шаг 5. Проводим диагностику.
Шаг 6. Фиксируем специфичность
и чувствительность
. Вычисляем
.
Шаг 7. Если
, то признак остается в наборе, иначе признак исключается.
Шаг 8. Повторяются шаги с 4-7.
В результате применения указанного выше алгоритма был получен следующий
набор признаков.
Таблица 16 - Признаки для алгоритма классификации
|
№ |
Признак |
|
Диапазон измерения |
Комбинированная информативность |
|
1 |
|
-0,75 |
РТМ |
12,2 |
|
2 |
|
-0,55 |
РТМ |
10,3 |
|
3 |
|
0,9 |
|
9,8 |
|
4 |
|
1,2 |
РТМ |
9,7 |
|
5 |
|
-0,75 |
РТМ |
9,0 |
|
6 |
|
1,3 |
РТМ |
9,0 |
|
7 |
|
РТМ |
8,5 |
|
|
8 |
|
РТМ |
8,5 |
|
|
9 |
|
РТМ |
8,3 |
|
|
10 |
|
РТМ |
7,1 |
|
|
11 |
|
|
6,1 |
|
|
12 |
|
ИК |
6,1 |
|
|
13 |
|
ИК |
6,0 |
|
|
14 |
|
ИК |
5,9 |
|
|
15 |
|
ИК |
5,3 |
|
|
16 |
|
ИК |
4,4 |
|
|
17 |
|
ИК |
4,2 |
|
|
18 |
|
|
3,8 |
|
|
19 |
|
|
3,8 |
|
|
20 |
|
РТМ |
3,8 |
|
|
21 |
|
ИК |
3,6 |
|
Затем, с помощью алгоритма описанного в предыдущем параграфе, был найден
новый критерий
. Таким образом, при выполнении неравенства
молочная железа будет относиться к
классу "Больные", в противном случае - к классу "Здоровые".
При проверке на обучающей выборке из 550 молочных желез пациенток (80 молочных желез здоровых пациенток и 470 молочных желез пациенток с заболеваниями молочных желез) на основе 21 признака, была достигнута точность - 90,9%, специфичность - 85% и чувствительность - 91,9%.
Алгоритм с использованием минимизированного набора признаков был проверен на тестовых выборках.
В связи с малым количеством данных выборка была поделена на обучающую и тестовую (тестовая выборка 1) случайным образом. Выборка была разделена следующим образом: в обучающую выборку были включены молочные железы двух классов: молочные железы здоровых пациенток (40 молочных желез) и молочные железы больных пациенток (234 молочных железы). В тестовую выборку 1 отнесли молочные железы, которые не были включены в обучающую.
Тестовую выборку 1 составляют молочные железы двух классов: здоровые молочные железы здоровых пациенток (40 молочных желез) и молочных желез больных пациенток (236 молочных желез).
В результате был получен следующий набор признаков.
Таблица 17 - Признаки для алгоритма классификации
|
№ПризнакДиапазон измеренияКомбинированная информативность |
|
|
|
|
|
1 |
|
РТМ |
9,8 |
|
|
2 |
|
1,1 |
РТМ |
8,4 |
|
3 |
|
1 |
|
7,8 |
|
4 |
|
|
5,9 |
|
|
5 |
|
1,2 |
РТМ |
5,9 |
|
6 |
|
ИК |
5,3 |
|
|
7 |
|
|
4,6 |
|
|
8 |
|
|
4,5 |
|
|
9 |
|
1,05 |
РТМ |
4,1 |
|
10 |
|
ИК |
4,0 |
|
|
11 |
|
РТМ |
3,9 |
|
|
12 |
|
0,55 |
ИК |
3,8 |
|
13 |
|
РТМ |
3,2 |
|
|
14 |
|
0,8 |
РТМ |
3,1 |
|
15 |
|
ИК |
3,1 |
|
|
16 |
|
ИК |
3,0 |
|
|
17 |
|
-0,5 |
РТМ |
2,6 |
|
18 |
|
ИК |
2,6 |
|
|
19 |
|
РТМ |
2,5 |
|
|
20 |
|
-0,55 |
РТМ |
2,4 |
|
21 |
|
0,75 |
РТМ |
2,4 |
|
22 |
|
РТМ |
2,3 |
|
|
23 |
|
-0,5 |
РТМ |
2,2 |
Ближе к концу исследования была получена база данных больных пациенток. В результате анализа была сформирована независимая тестовая выборка (тестовая выборка 2). Она включает в себя информацию о 1148 молочных железах больных пациенток. Данные тестовой выборки 2 делятся в соответствии с преобладанием того или иного нарушения следующим образом:
· данные здоровых молочных желез больных пациенток (51 молочных желез);
· данные молочных желез с наличием раковой опухоли (98 молочных желез);
· данные молочных желез с наличием фиброзно-кистозной мастопатии (937 молочных желез);
· данные молочных желез с наличием прочих нарушений таких, как гинекомастия, фиброаденома, мастит (62 молочных желез).
|
|
Точность |
Точность диагностики здоровых (специфичность) |
Точность диагностики больных (чувствительность) |
|
Обучающая выборка |
90,9% |
85% |
91,9% |
|
Тестовая выборка 1 |
87,6% |
85% |
88% |
|
Тестовая выборка 2 |
|
|
91,5% |
1. Бурдина Л.М. Применение радиотермометра диагностического компьютеризированного интегральной глубинной температуры ткани для диагностики рака молочной железы / Бурдина Л.М., Хайленко В.А., Кижаев Е.В. и др. // Пособие для врачей. - М. - 1999 г. - С. 35
. Вайсблат А.В. Использование микроволновой радиотермометрии в диагностике рака молочной железы / Вайсблат А.В., Веснин С.Г., Конкин М.А. и др. [сайт]. URL: #"818215.files/image077.gif">
-0,75
РТМ
15
12,2
2
-0,55
РТМ
3
24
10,3
3
0,9
3
23
9,8
4
1,2
РТМ
1
12
9,7
5
-0,75
РТМ
2
17
9,0
6
1,3
РТМ
2
17
9,0
7
0,41
РТМ
8
36
8,5
8
-0,6
РТМ
2
16
8,5
9
-0,95
РТМ
2
16
8,3
10
0,67
РТМ
2
15
7,7
11
1,1
РТМ
1
10
7,7