Материал: Создание алгоритма поиска высокоинформативных диагностических признаков заболеваний молочных желез и построение на их основе алгоритма классификации

Внимание! Если размещение файла нарушает Ваши авторские права, то обязательно сообщите нам

При использовании данного алгоритма важнейшим шагом является определение "критерия классификации", по которому будет происходить распределение молочной железы в тот или иной класс. Рассмотрим алгоритм поиска критерия классификации. Вначале определим множество значений Sj, по определенной выше формуле

,

где j - номер молочной железы (в нашем случае n=67).

Для того чтобы найти S0, вначале найдем "значимые" интервалы области изменений для каждого класса. Чтобы разбить на интервалы, был выполнен следующий алгоритм:

.        Находим подобласти , где sl определяется по формуле:

.        Если значение  больше значения sl, то относим молочную железу к классу "Больные", иначе к классу "Здоровые".

.        Если проверены все молочные железы, то находим специфичность (доля верно диагностированных здоровых):


где m - количество молочных желез класса "Здоровые", правильно классифицированных, M - общее количество молочных желез класса "Здоровые"

и чувствительность (доля позитивных результатов теста в группе больных пациенток):


где n - количество молочных желез класса "Больные", правильно классифицированных, N - общее количество молочных желез класса "Больные".

4.      Каждой подобласти ставится в соответствие число

.        Находим максимум среди :


который достигается на множестве .

6.      Выбираем критерий классификации .

В результате работы алгоритма, был найден критерий классификации .

Найденные алгоритмы проверялись на обучающей выборке из 550 молочных желез (80 молочных желез пациенток здоровых и 470 молочных желез пациенток с заболеваниями молочных желез). При проверке была достигнута точность - 89,5%, специфичность - 75% и чувствительность - 91,9%.

7.2. Минимизация набора высокоинформативных признаков для первого алгоритма

Получив критерий диагностики, стоит отметить, что точность диагностики здоровых пациенток (специфичность) оставляет желать лучшего. Одной из причин последнего является недостаточно оптимальный выбор используемых диагностических признаков. Было решено, с помощью вычислительных экспериментов произвести поиск более эффективного набора признаков.

При использовании первоначального набора высокоинформативных признаков с выбранным критерием классификации, в результате диагностики была достигнута точность в 89,5%, специфичность- 75%, чувствительность - 91,9%.

Минимизация набора происходила следующим образом:

Шаг 1. Берем два высокоинформативных признака.

Шаг 2. Проводим по выбранным признакам диагностику.

Шаг 3. Фиксируем специфичность  и чувствительность , полученные в результате диагностики. Вычисляем .

Шаг 4. К выбранным признакам добавляем следующий по информативности признак.

Шаг 5. Проводим диагностику.

Шаг 6. Фиксируем специфичность  и чувствительность . Вычисляем .

Шаг 7. Если , то признак остается в наборе, иначе признак исключается.

Шаг 8. Повторяются шаги с 4-7.

В результате применения указанного выше алгоритма был получен следующий набор признаков.

Таблица 16 - Признаки для алгоритма классификации

Признак


Диапазон измерения

Комбинированная информативность

1

-0,75

РТМ

12,2

2

-0,55

РТМ

10,3

3

0,9


9,8

4

1,2

РТМ

9,7

5

-0,75

РТМ

9,0

6

1,3

РТМ

9,0

7

0,41

РТМ

8,5


8

-0,6

РТМ

8,5


9

-0,95

РТМ

8,3


10

0,69

РТМ

7,1


11

1


6,1


12

0,36

ИК

6,1


13

0,86

ИК

6,0


14

0,9

ИК

5,9


15

-0,65

ИК

5,3


16

-0,71

ИК

4,4


17

1,25

ИК

4,2


18

0,7


3,8


19

0,8


3,8


20

-0,39

РТМ

3,8


21

-0,62

ИК

3,6



Затем, с помощью алгоритма описанного в предыдущем параграфе, был найден новый критерий . Таким образом, при выполнении неравенства  молочная железа будет относиться к классу "Больные", в противном случае - к классу "Здоровые".

При проверке на обучающей выборке из 550 молочных желез пациенток (80 молочных желез здоровых пациенток и 470 молочных желез пациенток с заболеваниями молочных желез) на основе 21 признака, была достигнута точность - 90,9%, специфичность - 85% и чувствительность - 91,9%.

.3 Проверка алгоритма диагностики на тестовых выборках


Алгоритм с использованием минимизированного набора признаков был проверен на тестовых выборках.

В связи с малым количеством данных выборка была поделена на обучающую и тестовую (тестовая выборка 1) случайным образом. Выборка была разделена следующим образом: в обучающую выборку были включены молочные железы двух классов: молочные железы здоровых пациенток (40 молочных желез) и молочные железы больных пациенток (234 молочных железы). В тестовую выборку 1 отнесли молочные железы, которые не были включены в обучающую.

Тестовую выборку 1 составляют молочные железы двух классов: здоровые молочные железы здоровых пациенток (40 молочных желез) и молочных желез больных пациенток (236 молочных желез).

Для признаков из минимизированного набора были рассчитаны новые интервалы и, соответствующие им, информативности при помощи алгоритма диагностики, описанного в параграфе 7.1.

В результате был получен следующий набор признаков.

Таблица 17 - Признаки для алгоритма классификации

№ПризнакДиапазон измеренияКомбинированная информативность





1

-0,88

РТМ

9,8


2

1,1

РТМ

8,4

3

1


7,8

4

2,1


5,9


5

1,2

РТМ

5,9

6

-0,65

ИК

5,3


7

1,8


4,6


8

1,9


4,5


9

1,05

РТМ

4,1

10

2,2

ИК

4,0


11

0,44

РТМ

3,9


12

0,55

ИК

3,8

13

0,71

РТМ

3,2


14

0,8

РТМ

3,1

15

0,48

ИК

3,1


16

-0,75

ИК

3,0


17

-0,5

РТМ

2,6

18

-0,66

ИК

2,6


19

-0,19

РТМ

2,5


20

-0,55

РТМ

2,4

21

0,75

РТМ

2,4

22

0,32

РТМ

2,3


23

-0,5

РТМ

2,2


Также был найден новый критерий .

В результате диагностики на тестовой выборке 1 была получена точность 87,6%, специфичность - 85% и чувствительность 88%.

Ближе к концу исследования была получена база данных больных пациенток. В результате анализа была сформирована независимая тестовая выборка (тестовая выборка 2). Она включает в себя информацию о 1148 молочных железах больных пациенток. Данные тестовой выборки 2 делятся в соответствии с преобладанием того или иного нарушения следующим образом:

·        данные здоровых молочных желез больных пациенток (51 молочных желез);

·        данные молочных желез с наличием раковой опухоли (98 молочных желез);

·        данные молочных желез с наличием фиброзно-кистозной мастопатии (937 молочных желез);

·        данные молочных желез с наличием прочих нарушений таких, как гинекомастия, фиброаденома, мастит (62 молочных желез).

В результате диагностики на независимой тестовой выборке 2 была получена чувствительность 91,5%.


Заключение

Подводя итоги, стоит отметить, что все поставленные цели и задачи были достигнуты. При этом в данной тематике есть еще много материала для дальнейших исследований.

В данной работе было проверено около 100 закономерностей. Были выделены характерные закономерности поведения температурных полей различных групп пациенток, которые были сформированы в признаки.

Одним из немаловажных результатов работы является тщательный анализ влияния различных факторов, таких как возраст пациента и количество беременностей и родов, на результаты измерений комбинированной термометрии, позволивший в процессе исследования сформировать обучающую и тестовую выборки. Данные результаты описаны в статье, которая принята к публикации [5].

Основными результатами работы является:

·        разработанный алгоритм поиска высокоинформативных признаков по данным комбинированной термометрии;

·        разработанный алгоритм поиска характеристических признаков по данным комбинированной термометрии;

·        разработанные и реализованные алгоритмы диагностики пациенток, на основе найденных признаков.

Впервые был разработан алгоритм на основе совокупности высокоинформативных и характеристических признаков.

Разработанные алгоритмы предварительно прошли проверку на тестовых выборках.

Результаты проверки приведены ниже (см. Таблица 18).


Таблица 18 - Результаты проверки


Точность

Точность диагностики здоровых (специфичность)

Точность диагностики больных (чувствительность)

Обучающая выборка

90,9%

85%

91,9%

Тестовая выборка 1

87,6%

85%

88%

Тестовая выборка 2



91,5%

Полученные данные на основе методики дают результат, приемлемый для использования в интеллектуальном аппаратно-программном комплексе диагностики заболевания молочных желез.


Список литературы


1.      Бурдина Л.М. Применение радиотермометра диагностического компьютеризированного интегральной глубинной температуры ткани для диагностики рака молочной железы / Бурдина Л.М., Хайленко В.А., Кижаев Е.В. и др. // Пособие для врачей. - М. - 1999 г. - С. 35

.        Вайсблат А.В. Использование микроволновой радиотермометрии в диагностике рака молочной железы / Вайсблат А.В., Веснин С.Г., Конкин М.А. и др. [сайт]. URL: #"818215.files/image077.gif">

-0,75

РТМ

15

12,2

2

-0,55

РТМ

3

24

10,3

3

0,9


3

23

9,8

4

1,2

РТМ

1

12

9,7

5

-0,75

РТМ

2

17

9,0

6

1,3

РТМ

2

17

9,0

7

0,41

РТМ

8

36

8,5

8

-0,6

РТМ

2

16

8,5

9

-0,95

РТМ

2

16

8,3

10

0,67

РТМ

2

15

7,7

11

1,1

РТМ

1

10

7,7