При разбиении на 5 кластеров дополнительно выделяется «оборот общественного питания» (показатель 10, табл. 1), а при разбиении на 6 кластеров «общественное питание» возвращается в первый кластер, при этом третий кластер разбивается на три новых кластера. Это подвигло авторов остановиться на 4-кластерном разбиении, придав кластерам названия по аналогии с названиями групп табл. 3 и табл. 4.
Применение метода главных компонент приводит к собственным числам матрицы Kковариаций. Первые 10 собственных чисел приведены в табл. 5. Остальные 7 собственных чисел (по величине < 0,01) являются не отрицательными. Первые 4 собственных числа обеспечивают более 95% общей дисперсии данных. Уже первое собственное число «забирает» более 80% общей дисперсии данных.
Таблица 5
|
1 |
2 |
3 |
4 |
5 |
6 |
7 |
8 |
9 |
10 |
||
|
Собственное число |
13,74 |
1,16 |
0,74 |
0,67 |
0,29 |
0,20 |
0,09 |
0,05 |
0,03 |
0,02 |
|
|
% общей дисперсии |
80,82 |
6,81 |
4,34 |
3,95 |
1,70 |
1,19 |
0,51 |
0,30 |
0,19 |
0,12 |
|
|
% дисперсии накопленный |
80,82 |
87,64 |
91,98 |
95,93 |
97,63 |
98,82 |
99,33 |
99,63 |
99,82 |
99,94 |
Нормированные собственные векторы первых 4 собственных чисел (табл. 6) указывают направления в пространстве Rn, вдоль которых с наибольшим размахом распределены исходные данные.
Таблица 6
|
№ показателя |
Собственный вектор |
||||
|
U1 |
U2 |
U3 |
U4 |
||
|
1 |
0,262 |
-0,025 |
-0,102 |
0,142 |
|
|
2 |
0,269 |
0,038 |
0,065 |
-0,043 |
|
|
3 |
0,264 |
0,137 |
0,104 |
0,007 |
|
|
4 |
0,248 |
0,331 |
0,133 |
0,006 |
|
|
5 |
0,267 |
0,097 |
0,058 |
0,065 |
|
|
6 |
0,264 |
-0,099 |
0,036 |
-0,116 |
|
|
7 |
0,267 |
0,031 |
0,123 |
-0,014 |
|
|
8 |
0,239 |
-0,075 |
-0,371 |
0,178 |
|
|
9 |
0,193 |
-0,373 |
-0,447 |
0,479 |
|
|
10 |
-0,250 |
0,225 |
-0,053 |
0,252 |
|
|
11 |
-0,154 |
-0,407 |
0,672 |
0,439 |
|
|
12 |
-0,206 |
-0,324 |
0,012 |
-0,470 |
|
|
13 |
-0,246 |
0,005 |
-0,320 |
-0,152 |
|
|
14 |
-0,248 |
-0,261 |
-0,178 |
-0,040 |
|
|
15 |
-0,253 |
-0,028 |
-0,093 |
0,289 |
|
|
16 |
0,235 |
-0,416 |
0,037 |
-0,046 |
|
|
17 |
0,227 |
-0,378 |
0,016 |
-0,334 |
Наиболее информативно направление, указываемое собственным вектором первого собственного числа. Компоненты этого вектора для первого, позитивного, а также второго и четвертого кластеров (табл. 4) имеют один знак, а для третьего, негативного, противоположный. Здесь так же, как и в ковариационной матрице, негативный кластер проявляется собственными свойствами.
При этом все показатели примерно одинаково «участвуют» компонентами в первом собственном векторе, он аккумулирует информацию обо всех показателях в равной степени. Остальные собственные векторы имеют менее выраженные свойства.
В данных выделяются четыре первых главных компоненты (табл. 7), которые представляют собой проекции данных на соответствующие собственные векторы.
Главные компоненты представляют собой проекции векторов показателей каждого года на собственные векторы. Первая главная компонента «собирает» наиболее значимые величины этих проекций. С 2002 г. по 2007 г. проекции вектора показателей в целом убывали, а с 2008 г. начался убыстряющийся рост.
Таблица 7
|
Год сбора информации |
Y1 |
Y2 |
Y3 |
Y4 |
|
|
2002 |
-6,14 |
0,73 |
-0,44 |
1,35 |
|
|
2003 |
-5,38 |
1,54 |
-0,21 |
0,75 |
|
|
2004 |
-4,48 |
-0,21 |
1,57 |
-0,47 |
|
|
2005 |
-3,35 |
-0,44 |
-0,36 |
-1,30 |
|
|
2006 |
-1,61 |
-0,47 |
-0,59 |
-0,85 |
|
|
2007 |
-0,46 |
-0,16 |
-0,78 |
-1,02 |
|
|
2008 |
0,21 |
-0,62 |
-0,40 |
-0,67 |
|
|
2009 |
0,60 |
-1,28 |
1,14 |
0,33 |
|
|
2010 |
1,57 |
-1,47 |
1,05 |
0,83 |
|
|
2011 |
2,81 |
-1,33 |
-0,71 |
0,93 |
|
|
2012 |
3,47 |
-0,29 |
-1,40 |
0,67 |
|
|
2013 |
3,71 |
0,91 |
0,01 |
-0,21 |
|
|
2014 |
4,08 |
1,43 |
0,27 |
-0,20 |
|
|
2015 |
4,97 |
1,66 |
0,85 |
-0,14 |
Если вспомнить, что компоненты первого собственного вектора положительны для всех кластеров, кроме негативного (табл. 6), то это означает, что условия жизни с 2002 г. по 2007 г. в целом ухудшались, а с 2008 г. стали улучшаться. А поскольку первой компоненте соответствует 80% всей информации, то этот вывод приобретает достаточную весомость. Более того, если бы удалось собирать данные соответственно направлению собственного вектора первого собственного числа (каждый такт времени по одному числу), то мы сразу получали бы 80% информации о вариациях данных этого такта времени.
Влияние условий жизни на распространение туберкулеза
Четыре показателя распространения туберкулеза (номера 1 - 4, табл. 1) характеризуют разные стороны заболевания. Для каждого из четырех показателей туберкулеза построим ковариационные функции относительно выделенных кластеров [11]. Это функции fikсдвига pкаждого показателя туберкулеза Xj (i= 1,...,4) относительно характеристик кластеров Sk (k =1,...4) в табл. 4: fik{p)= соvр(y,,ck).Здесь ck - показатель центра кластера к. Этот показатель заменяет показатели, вошедшие в кластер. Выборочный центр Ck кластера вычисляется как среднее арифметическое векторов X ¦ выборочных данных, вошедших в кластер. Индекс pуказывает на сдвиг по компонентам
векторов: . В нашем случае переменная pизменяется по целым числам от 0 до 9. Ковариационные функции характеризуют влияние кластеров показателей одного года на уровень заболеваемости и состояние больных через pлет.
Ниже приведены графики ковариационных функций для трех показателей туберкулеза (рис. 1 - 3).
Рис. 1. Ковариационная функция зависимости заболеваемости туберкулезом.
Мы не использовали показатель распространенности активной фазы заболевания, считая его в данном случае частично дублирующим общий показатель распространенности заболевания. По горизонтальной оси указан сдвиг pв ковариационной функции, а по вертикальной - значение функции.
Все три группы графиков показывают особенность поведения ковариационных функций при сдвиге 5, 6 и, особенно, 7 лет. С этим сдвигом позитивный кластер (табл. 4) оказывает наибольшее негативное влияние на заболеваемость и распространенность туберкулеза.
Негативный кластер (табл. 4) при этих же сдвигах в наибольшей мере «помогает» заболеваемости и распространенности туберкулеза. Два других малых по числу показателей кластера (табл. 4) играют менее отчетливые роли, но в целом оба проявляют позитивные воздействия на показатели заболевания. Интересно, что слабый алкоголь оказывается скорее полезным для больных, чем вредным.
Рис. 2.Ковариационная функция зависимости распространенности туберкулеза.
Рис. 3. Ковариационная функция зависимости выздоровевших.
Заключение
Короткие ряды данных (всего 14 лет), конечно, повлияли на результаты исследования, но некоторые закономерности выявились вполне четко.
Среди показателей об условиях жизни анализ ковариаций выявил большие группы позитивных и негативных показателей и две небольшие группы скорее позитивных показателей (табл. 3 и 4). Позитивные показатели благоприятно влияют на уменьшение распространения болезни и выздоровление, негативные действуют противоположным образом. Неожиданным оказался результат положительного влияния на больных слабого алкоголя (вино, пиво). Выделение главных компонент отчетливо подтвердило этот результат. С 2002 г. по 2007 г. позитивные показатели в целом убывали, а с 2008 г. начался убыстряющийся рост, т.е. с 2002 г. по 2007 г. условия жизни в целом ухудшались, а с 2008 г. стали улучшаться.
Выяснился временной сдвиг в 5 - 7 лет наибольшей отчетливости воздействий групп показателей (табл. 4) на показатели распространения туберкулеза (рис. 1 - 3). При сдвиге в 7 лет позитивный кластер оказывает наибольшее негативное влияние на заболеваемость и распространенность туберкулеза. Негативный кластер при этих же сдвигах в 5 - 7 лет в наибольшей мере «способствует» распространению туберкулеза.
Попытки найти взаимодействия на уровне регрессии, в том числе и с учетом уровня медицинского обслуживания, не удались. Можно предположить, что причины кроются в кратком временном промежутке и в двоякой роли медицинского обслуживания. С одной стороны, это лечебные воздействия, а с другой, - эффективность выявления больных.
В целом применение математических средств к данным медицинской статистики дало новую информацию о динамике заболевания в зависимости от условий жизни населения. Появилась возможность разработки собственной математической модели динамики заболевания туберкулезом, что является следующим шагом нашей работы. Поскольку туберкулез относится к эпидемическим заболеваниям [8], то его моделирование следует вести в стиле подходов известной модели Бейли [1313] и многочисленных последующих публикаций. В то же время течение болезни связано с функционированием иммунной системы человека, поэтому следует использовать подходы Марчука [14,15].
ЛИТЕРАТУРА
1. Туберкулез в Российской Федерации, 2012-2014 гг. Аналитический обзор статистических показателей, используемых в Российской Федерации и в мире. - М., 2015.
2. Романюха А.А. Математические модели в иммунологии и эпидемиологии инфекционных заболеваний. - М.: БИНОМ. Лаборатория знаний, 2015.
3. Абакумов А.И., Яковлев А.А. Модель иммунного ответа на вирусное заражение // Информатика и системы управления. - 2018. - № 3. - С. 3-9.
4. Состояние здоровья населения и организация здравоохранения на территории Приморского края. Государственный доклад администрации Приморского края для Минздрава РФ. Электронный ресурс https://www.primorsky.ru/authorities/executive- agencies/departments/health/statisticheskie-dannye-o-sostoyanii-i-dinamike-razvitiya-zdra- vookhraneniya-primorskogo-kraya/(дата обращения: 15.09.2018)
5. Волкова М.В., Шахгельдян К.И., Гельцер Б.И., Кривелевич Е.Б., Транковская Л.В., Ермолицкая М.З., Кучерова С.В. Анализ кадрового ресурса системы здравоохранения Приморского края // Тихоокеанский медицинский журнал. - 2016. - № 3. - С. 52-56.
6. Лавренюк В.В., Мотанова Л.Н. Оценка ситуации по туберкулезу в Приморском крае за последние 14 лет (2003 - 2016) // Тихоокеанский медицинский журнал. - 2017. - № 4. - С. 74 - 76
7. Мурашкина Г.С., Алексеева Т.В., Новикова Н.М. и др. Эпидемическая ситуация по туберкулезу в Дальневосточном федеральном округе в 2003-2008 гг. // Туберкулез и болезни легких. - 2011. - № 1. - С. 10-16.
8. World Health Organization. https://www.who.int/tb/publications/global_report/ru/(датаобращения: 22.08.2018)
9. Ниворожкина Л.И., Арженовский С.В. Многомерные статистические методы в экономике. Учебник. - М.: Издательско-торговая корпорация «Дашков и К»; Ростов н/Д: Наука-Спектр, 2008.
10. Гантмахер Ф.Р. Теория матриц. - М.: Наука, 1966.
11. https://www.ibm.com/ru-ru/analytics/spss-statistics-software(дата обращения 01.07.2019)
12. http://statsoft.ru/(дата обращения 01.07.2019)
13. Bailey N.T.J. The Mathematical Theory of Epidemics. - London. Griffin, 1957.
14. Марчук Г.И. Математические модели в иммунологии. - М.: Наука, 1985.
15. Белых Л.Н., Марчук Г.И. Качественный анализ простейшей математической модели инфекционного заболевания // Математическое моделирование в иммунологии и медицине. - 1982. - С. 5-27.