7. Получаем признак:
.
Использование в данном алгоритме среднего геометрического значения статистической и эвристической информативностей обусловлено рядом причин. А именно: статистическая информативность отделяет достаточно большие группы исследуемых объектов, но при этом теряется точность, эвристическая же информативность достаточно точная, но при этом отделяет маленькое количество исследуемых объектов.
Рассмотрим пример поиска высокоинформативных признаков для функции
(см. Таблица 11).
Таблица 11 - Поиск высокоинформативных признаков
|
№ |
Признак |
|
Статистическая информативность |
Эвристическая информативность |
Комбинированная информативность |
|
1 |
|
0,8 |
10,1 |
9,0 |
9,5 |
|
2 |
|
0,9 |
12,6 |
7,7 |
9,8 |
|
3 |
|
1 |
9,6 |
3,2 |
5,6 |
|
4 |
|
1,1 |
11,3 |
2,8 |
5,6 |
|
5 |
|
1,2 |
13,1 |
2,6 |
5,8 |
|
6 |
|
1,3 |
15,1 |
2,7 |
6,3 |
|
7 |
|
1,4 |
16,3 |
2,5 |
6,4 |
|
8 |
|
1,5 |
16,5 |
2,3 |
6,2 |
|
9 |
|
1,6 |
15,2 |
2 |
5,5 |
В рассматриваемом примере в качестве признака выбираем интервал №2, так как комбинированная информативность, соответствующая ему, максимальна. Хотя статистическая и эвристическая информативности достигают своих максимальных значений на других интервалов, но исходя из приведенного алгоритма, эти интервалы не выбираются в качестве признаков.
В результате вычислительных экспериментов было предложено в качестве
порога взять
, и для дальнейшего рассмотрения оставлять только признаки,
удовлетворяющие условию
. Таким образом, были получены
конкретные интервалы для признаков (см. Приложение, Таблица 1).
В качестве примера приведены некоторые высокоинформативные признаки (см.
Таблица 12).
Таблица 12 - Примеры высокоинформативных признаков
|
№ |
Признак |
|
Диапазон измерения |
Доля молочных желез класса "Здоровые", у которых наблюдается признак |
Доля молочных желез класса "Больные", у которых наблюдается признак |
Комбинированная информативность |
|
1 |
|
-0,75 |
РТМ |
1 |
15 |
12,2 |
|
2 |
|
-0,55 |
РТМ |
3 |
24 |
10,3 |
|
3 |
|
0,9 |
|
3 |
23 |
9,8 |
|
4 |
|
1,2 |
РТМ |
1 |
12 |
9,7 |
|
5 |
|
-0,75 |
РТМ |
2 |
17 |
9,0 |
|
6 |
|
1,3 |
РТМ |
2 |
17 |
9,0 |
|
7 |
|
0,41 |
РТМ |
8 |
36 |
8,5 |
|
8 |
|
-0,6 |
РТМ |
2 |
16 |
8,5 |
|
9 |
|
-0,95 |
РТМ |
2 |
16 |
8,3 |
|
10 |
|
0,67 |
РТМ |
2 |
15 |
7,7 |
Поиск характеристических признаков заключался в нахождении подобластей, которым принадлежат значения функции, соответствующие молочным железам одного класса, но не принадлежат значения функции, соответствующие молочным железам другого.
Находились подобласти, на которых множество значений функций
, соответствующие множеству векторов
, будет пустым, т.е. соответствующая
эвристическая информативность бесконечна. Из этих подобластей выбиралась
подобласть, содержащая множество значений функций
, которому соответствует наибольшее
количество векторов
.
Рассмотрим пример поиска характеристических признаков для функции
(см. Таблица 13).
Таблица 13 - Поиск характеристических признаков
|
№ |
Признак |
|
Диапазон |
Количество молочных желез класса "Здоровые", у которых наблюдается признак |
Количество молочных желез класса "Больные", у которых наблюдается признак |
|
1 |
|
-1,95 |
РТМ |
0 |
4 |
|
2 |
|
-1,85 |
РТМ |
0 |
4 |
|
3 |
|
-1,75 |
РТМ |
0 |
8 |
|
4 |
|
-1,65 |
РТМ |
0 |
12 |
|
5 |
|
РТМ |
0 |
12 |
|
|
6 |
|
-1,45 |
РТМ |
0 |
14 |
|
7 |
|
-1,35 |
РТМ |
0 |
17 |
|
8 |
|
-1,25 |
РТМ |
0 |
26 |
|
9 |
|
-1,15 |
РТМ |
0 |
40 |
|
10 |
|
-1,05 |
РТМ |
0 |
47 |
|
11 |
|
-0,95 |
РТМ |
1 |
55 |
Как видно из приведенной таблицы, первым 10 интервалам принадлежат
значения
, соответствующие молочным железам
только класса "Больные". В интервал №11 попадают значения
, соответствующие молочным железам
обоих классов, поэтому останавливаем поиск и выбираем предыдущий интервал как
характеристический признак.
Таким образом, были получены конкретные интервалы для признаков (см. Приложение, Таблица 2).
В качестве примера приведены некоторые характеристические признаки (см.
Таблица 14).
Таблица 14 - Наиболее значимые характеристические признаки
|
№ |
Признак |
|
Диапазон |
Количество молочных желез класса "Здоровые", у которых наблюдается признак |
Количество молочных желез класса "Больные", у которых наблюдается признак |
|
1 |
|
0,7 |
|
0 |
68 |
|
2 |
|
1,6 |
РТМ |
0 |
48 |
|
3 |
|
-1,05 |
РТМ |
0 |
47 |
|
4 |
|
1,65 |
РТМ |
0 |
39 |
|
5 |
|
-1,15 |
РТМ |
0 |
33 |
|
6 |
|
-0,9 |
РТМ |
0 |
31 |
|
7 |
|
-1,25 |
РТМ |
0 |
29 |
|
8 |
|
0,787 |
РТМ |
0 |
27 |
|
9 |
|
-1,42 |
РТМ |
0 |
26 |
|
10 |
|
5,24 |
ИК |
0 |
25 |
Алгоритм диагностики основан на применении группы выделяющих и характеристических признаков диагностики. Было отобрано 2 ряда признаков. Признаки, основанные на выявлении молочных желез класса "Больные" (77 признаков, см. Приложение, Таблица 1), и характеристические признаки (84 признаков, см. Приложение, Таблица 2).
Данный алгоритм состоит из пяти основных шагов:
· сначала используем набор характеристических признаков: если хотя бы один из признаков выполнен, то молочную железу относим к классу "Больные".
Для неклассифицированных молочных желез:
· каждой молочной железе приписываем вектор
, …,
, где n - количество
высокоинформативных признаков
· каждой молочной железе приписываем число
, где ai равно 0 в том случае, если
признак i не выполняется, иначе ai равно информативности i-го признака;
· число S сравнивается с числом, являющимся "критерием классификации" - S0. В зависимости от результата сравнения, молочная железа относится либо к классу "Здоровые", либо к классу "Больные";
· Если хоть одна молочная железа отнесена к молочным железам больного пациента, то пациента диагностируем как больного, иначе как здорового.
Начнем с описания первого шага, а именно, с определения набора признаков.
Экспертный анализ, подтвержденный вычислительными экспериментами, показал, что
использование всех 77 (см. Приложение, Таблица 1) признаков не целесообразно.
Вызвано это в первую очередь тем, что многие из них являются "родственными".
После проведенного на основе экспертных оценок исключения наименее
информативных "родственных" признаков, был получен следующий набор
(см. Таблица 15).
Таблица 15 - Наиболее значимые характеристические признаки
|
№ |
Признак |
|
Диапазон измерения |
Комбинированная информативность |
|
1 |
|
-0,75 |
РТМ |
12,2 |
|
2 |
|
-0,55 |
РТМ |
10,3 |
|
3 |
|
0,9 |
|
9,8 |
|
4 |
|
1,2 |
РТМ |
9,7 |
|
5 |
|
-0,75 |
РТМ |
9,0 |
|
6 |
|
1,3 |
РТМ |
9,0 |
|
7 |
|
0,41 |
РТМ |
8,5 |
|
8 |
|
-0,6 |
РТМ |
8,5 |
|
9 |
|
-0,95 |
РТМ |
8,3 |
|
10 |
|
0,67 |
РТМ |
7,7 |
|
11 |
|
1,1 |
РТМ |
7,7 |
|
12 |
|
0,69 |
РТМ |
7,1 |
|
13 |
|
-0,4 |
РТМ |
7,0 |
|
14 |
|
1 |
|
6,1 |
|
15 |
|
0,36 |
ИК |
6,1 |
|
16 |
|
0,86 |
ИК |
6,0 |
|
17 |
|
0,69 |
РТМ |
5,9 |
|
18 |
|
0,9 |
ИК |
5,9 |
|
19 |
|
-0,9 |
РТМ |
5,5 |
|
20 |
|
0,7 |
|
5,5 |
|
21 |
|
0,63 |
ИК |
5,4 |
|
22 |
|
0,9 |
ИК |
5,4 |
|
23 |
|
-0,65 |
ИК |
5,3 |
|
24 |
|
1,3 |
РТМ |
5,3 |
|
25 |
|
-0,5 |
РТМ |
5,1 |
|
26 |
|
1,05 |
РТМ |
5,0 |
|
27 |
|
0,9 |
ИК |
4,8 |
|
28 |
|
-0,34 |
РТМ |
4,6 |
|
29 |
|
-0,65 |
РТМ |
4,5 |
|
30 |
|
-0,71 |
ИК |
4,4 |
|
31 |
|
0,5 |
ИК |
4,4 |
|
32 |
|
0,4 |
ИК |
4,4 |
|
33 |
|
1,25 |
ИК |
4,2 |
|
34 |
|
-0,93 |
ИК |
4,2 |
|
35 |
|
-0,1 |
ИК |
4,0 |
|
36 |
|
-0,9 |
ИК |
3,9 |
|
37 |
|
2,2 |
ИК |
3,9 |
|
38 |
|
-0,48 |
РТМ |
3,9 |
|
39 |
|
0,7 |
|
3,8 |
|
40 |
|
-0,86 |
ИК |
3,8 |
|
41 |
|
1,15 |
РТМ |
3,8 |
|
42 |
|
0,8 |
|
3,8 |
|
43 |
|
-0,39 |
РТМ |
3,8 |
|
44 |
|
1,05 |
РТМ |
3,7 |
|
45 |
|
-0,62 |
ИК |
3,6 |
|
46 |
|
2,2 |
ИК |
3,5 |
|
47 |
|
ИК |
3,4 |
|
|
48 |
|
2,44 |
ИК |
3,4 |
|
49 |
|
0,34 |
РТМ |
3,3 |
|
50 |
|
1,3 |
ИК |
3,3 |
|
51 |
|
1,87 |
РТМ |
3,3 |
|
52 |
|
0,5 |
|
3,1 |
|
53 |
|
0,9 |
ИК |
3,1 |
|
54 |
|
0,8 |
|
3,0 |
|
55 |
|
-1,3 |
ИК |
2,9 |
|
56 |
|
-0,31 |
ИК |
2,8 |
|
57 |
|
0,85 |
РТМ |
2,8 |
|
58 |
|
0,34 |
ИК |
2,7 |
|
59 |
|
-1,28 |
ИК |
2,4 |
|
60 |
|
1,14 |
ИК |
2,3 |
|
61 |
|
0,61 |
РТМ |
2,3 |
|
62 |
|
-0,66 |
РТМ |
2,3 |
|
63 |
|
-1,3 |
ИК |
2,3 |
|
64 |
|
-0,31 |
РТМ |
2,2 |
|
65 |
|
-0,65 |
РТМ |
2,2 |
|
66 |
|
0,57 |
ИК |
2,1 |
|
67 |
|
2,7 |
ИК |
2,1 |